Tokens Anómalos en DeepSeek: Un Catálogo de Fallos

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-01-25

Un investigador ha descubierto una serie de 'tokens anómalos' en el modelo de lenguaje grande de código abierto DeepSeek-V3 y r1. Estos tokens, cuando se introducen, hacen que el modelo presente comportamientos extraños, como sustituir palabras por caracteres Unicode inusuales, siglas o emojis. El investigador probó sistemáticamente cada token del vocabulario de DeepSeek, identificando y categorizando estos fallos. Algunos tokens, llamados 'tokens fragmentados', solo muestran anomalías en contextos específicos. Otros, como 'Nameeee' y 'EDMFunc', producen sustituciones peculiares de forma consistente. 'Nameeee' frecuentemente resulta en palabras o símbolos relacionados con 'M', mientras que 'EDMFunc' prefiere palabras que comienzan con 'H' y nombres japoneses. Se encontraron también varios tokens anómalos no ingleses, principalmente del cebuano y otras lenguas filipinas. Los tokens especiales como '<｜end of thinking｜>' pueden interrumpir aún más la funcionalidad del modelo. Esta investigación ofrece información valiosa sobre el funcionamiento interno de los LLMs y abre camino para futuras investigaciones.