TokenDagger: Hochperformante Implementierung von OpenAIs TikToken
2025-06-30
TokenDagger ist eine hochperformante Alternative zu OpenAIs TikToken, optimiert für die Verarbeitung großer Textmengen. Benchmarks zeigen, dass TokenDagger bei der Tokenisierung von Code bis zu 4-mal schneller ist und einen 2-fach höheren Durchsatz als TikToken erreicht. Es nutzt eine optimierte PCRE2-Regex-Engine und einen vereinfachten BPE-Algorithmus, um die Performance-Auswirkungen großer spezieller Token-Vokabulare zu reduzieren. TokenDagger ist ein direkter Ersatz und lässt sich mit wenigen Befehlen installieren und testen.
Entwicklung