DeepSeekにおける異常トークン:グリッチのカタログ

2025-01-25
DeepSeekにおける異常トークン:グリッチのカタログ

研究者は、オープンソースの大規模言語モデルDeepSeek-V3とr1において、多数の「異常トークン」を発見しました。これらのトークンを入力すると、モデルは奇妙な動作を示し、単語が珍しいUnicode文字、頭字語、絵文字に置き換えられるなどします。研究者はDeepSeekの語彙から各トークンを体系的にテストし、これらのグリッチを特定し分類しました。一部のトークンは「フラグメントトークン」と呼ばれ、特定のコンテキストでのみ異常を示します。「Nameeee」や「EDMFunc」などの他のトークンは、一貫して特異な置換を生成します。「Nameeee」は頻繁に「M」関連の単語や記号を生成し、「EDMFunc」は「H」で始まる単語や日本の名前を好みます。セブアノ語やその他のフィリピン諸語を主とした多くの非英語の異常トークンも見つかりました。`<|end of thinking|>`などの特殊トークンは、モデルの機能をさらに阻害する可能性があります。この研究は、LLMの内部動作に関する貴重な洞察を提供し、今後の研究の道を開きます。

続きを読む