Anomale Tokens in DeepSeek: Ein Katalog von Fehlern
Ein Forscher hat eine Reihe von „anomalen Tokens“ im Open-Source-Sprachmodell DeepSeek-V3 und r1 entdeckt. Diese Tokens führen zu bizarre Ergebnissen, wenn sie eingegeben werden, z. B. werden Wörter durch ungewöhnliche Unicode-Zeichen, Akronyme oder Emojis ersetzt. Der Forscher testete systematisch jedes Token aus dem DeepSeek-Wortschatz und identifizierte und kategorisierte diese Fehler. Einige Tokens, sogenannte „Fragment-Tokens“, zeigen nur in bestimmten Kontexten Anomalien. Andere, wie „Nameeee“ und „EDMFunc“, produzieren konsistent ungewöhnliche Ersetzungen. „Nameeee“ ergibt häufig Wörter oder Symbole im Zusammenhang mit „M“, während „EDMFunc“ Wörter bevorzugt, die mit „H“ beginnen, und japanische Namen. Es wurden auch zahlreiche nicht-englische anomale Tokens gefunden, hauptsächlich aus dem Cebuano und anderen philippinischen Sprachen. Spezielle Tokens wie „<|end of thinking|>“ können die Funktionalität des Modells zusätzlich stören. Diese Forschung liefert wertvolle Einblicke in die Funktionsweise von LLMs und ebnet den Weg für zukünftige Untersuchungen.