Tokens Anômalos em DeepSeek: Um Catálogo de Falhas

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-01-25

Um pesquisador descobriu uma série de 'tokens anômalos' no modelo de linguagem grande de código aberto DeepSeek-V3 e r1. Esses tokens, quando inseridos, fazem com que o modelo apresente comportamentos estranhos, como substituir palavras por caracteres Unicode incomuns, siglas ou emojis. O pesquisador testou sistematicamente cada token do vocabulário do DeepSeek, identificando e categorizando essas falhas. Alguns tokens, chamados de 'tokens fragmentados', só mostram anomalias em contextos específicos. Outros, como 'Nameeee' e 'EDMFunc', produzem substituições peculiares de forma consistente. 'Nameeee' frequentemente resulta em palavras ou símbolos relacionados a 'M', enquanto 'EDMFunc' prefere palavras que começam com 'H' e nomes japoneses. Vários tokens anômalos não ingleses, principalmente do Cebuano e outras línguas filipinas, também foram encontrados. Tokens especiais como '<｜end of thinking｜>' podem ainda interromper a funcionalidade do modelo. Esta pesquisa oferece insights valiosos sobre o funcionamento interno dos LLMs e abre caminho para investigações futuras.