TokenDagger : une implémentation ultra-rapide de TikToken d'OpenAI

2025-06-30
TokenDagger : une implémentation ultra-rapide de TikToken d'OpenAI

TokenDagger propose une alternative haute performance à TikToken d'OpenAI, optimisée pour le traitement de texte à grande échelle. Les benchmarks montrent que TokenDagger atteint une vitesse jusqu'à 4 fois supérieure pour la tokenisation de code et une augmentation de débit de 2x par rapport à TikToken. Utilisant un moteur d'expressions régulières PCRE2 optimisé et un algorithme BPE simplifié pour atténuer l'impact sur les performances des grands vocabulaires de jetons spéciaux, TokenDagger fournit un remplacement direct. L'installation et les tests de performance sont simples avec quelques commandes.

Développement