Tokens Anómalos en DeepSeek: Un Catálogo de Fallos
Un investigador ha descubierto una serie de 'tokens anómalos' en el modelo de lenguaje grande de código abierto DeepSeek-V3 y r1. Estos tokens, cuando se introducen, hacen que el modelo presente comportamientos extraños, como sustituir palabras por caracteres Unicode inusuales, siglas o emojis. El investigador probó sistemáticamente cada token del vocabulario de DeepSeek, identificando y categorizando estos fallos. Algunos tokens, llamados 'tokens fragmentados', solo muestran anomalías en contextos específicos. Otros, como 'Nameeee' y 'EDMFunc', producen sustituciones peculiares de forma consistente. 'Nameeee' frecuentemente resulta en palabras o símbolos relacionados con 'M', mientras que 'EDMFunc' prefiere palabras que comienzan con 'H' y nombres japoneses. Se encontraron también varios tokens anómalos no ingleses, principalmente del cebuano y otras lenguas filipinas. Los tokens especiales como '<|end of thinking|>' pueden interrumpir aún más la funcionalidad del modelo. Esta investigación ofrece información valiosa sobre el funcionamiento interno de los LLMs y abre camino para futuras investigaciones.