TokenDagger : une implémentation ultra-rapide de TikToken d'OpenAI
2025-06-30
TokenDagger propose une alternative haute performance à TikToken d'OpenAI, optimisée pour le traitement de texte à grande échelle. Les benchmarks montrent que TokenDagger atteint une vitesse jusqu'à 4 fois supérieure pour la tokenisation de code et une augmentation de débit de 2x par rapport à TikToken. Utilisant un moteur d'expressions régulières PCRE2 optimisé et un algorithme BPE simplifié pour atténuer l'impact sur les performances des grands vocabulaires de jetons spéciaux, TokenDagger fournit un remplacement direct. L'installation et les tests de performance sont simples avec quelques commandes.
Développement