DeepSeek-V3和r1中的异常标记:一场与怪异行为的较量

2025-01-25
DeepSeek-V3和r1中的异常标记:一场与怪异行为的较量

一位研究者在开源大型语言模型DeepSeek-V3和r1中发现了一系列“异常标记”,这些标记会导致模型产生奇异的输出,例如将单词替换成奇怪的Unicode字符、缩写或表情符号。研究者通过提取模型词汇表并测试每个标记的异常行为,最终整理出一份异常标记目录,并对这些标记的行为进行了初步观察。这些异常标记中,部分是“碎片标记”,只有在特定语境下才会出现异常;另一些标记则表现出更奇特的行为,例如将'Nameeee'替换成各种与“M”相关的词语或符号,'EDMFunc'则偏向于以“H”开头的单词和日本名字。研究者还发现了大量非英语异常标记,主要来自宿务语或其他菲律宾地区语言。此外,一些特殊标记如'<|end of thinking|>'也会导致模型进入混乱状态。这项研究为进一步探索大型语言模型的内部机制提供了宝贵的素材。