Tokens Anômalos em DeepSeek: Um Catálogo de Falhas

2025-01-25
Tokens Anômalos em DeepSeek: Um Catálogo de Falhas

Um pesquisador descobriu uma série de 'tokens anômalos' no modelo de linguagem grande de código aberto DeepSeek-V3 e r1. Esses tokens, quando inseridos, fazem com que o modelo apresente comportamentos estranhos, como substituir palavras por caracteres Unicode incomuns, siglas ou emojis. O pesquisador testou sistematicamente cada token do vocabulário do DeepSeek, identificando e categorizando essas falhas. Alguns tokens, chamados de 'tokens fragmentados', só mostram anomalias em contextos específicos. Outros, como 'Nameeee' e 'EDMFunc', produzem substituições peculiares de forma consistente. 'Nameeee' frequentemente resulta em palavras ou símbolos relacionados a 'M', enquanto 'EDMFunc' prefere palavras que começam com 'H' e nomes japoneses. Vários tokens anômalos não ingleses, principalmente do Cebuano e outras línguas filipinas, também foram encontrados. Tokens especiais como '<|end of thinking|>' podem ainda interromper a funcionalidade do modelo. Esta pesquisa oferece insights valiosos sobre o funcionamento interno dos LLMs e abre caminho para investigações futuras.