Tokens Anormaux dans DeepSeek : Un Catalogue de Dysfonctionnements
Un chercheur a mis au jour une série de « tokens anormaux » dans le modèle linguistique large open source DeepSeek-V3 et r1. Ces tokens, lorsqu'ils sont introduits, provoquent un comportement étrange du modèle, comme le remplacement de mots par des caractères Unicode inhabituels, des acronymes ou des emojis. Le chercheur a testé systématiquement chaque token du vocabulaire de DeepSeek, identifiant et catégorisant ces dysfonctionnements. Certains tokens, appelés « tokens fragmentés », ne présentent des anomalies que dans des contextes spécifiques. D'autres, comme « Nameeee » et « EDMFunc », produisent des substitutions singulières de manière consistante. « Nameeee » donne fréquemment des mots ou des symboles liés à la lettre « M », tandis que « EDMFunc » privilégie les mots commençant par « H » et les noms japonais. De nombreux tokens anormaux non anglais, principalement du cébuano et d'autres langues philippines, ont également été trouvés. Des tokens spéciaux comme « <|end of thinking|> » peuvent perturber davantage la fonctionnalité du modèle. Cette recherche offre des informations précieuses sur le fonctionnement interne des LLM et ouvre la voie à de futures recherches.