TokenDagger: Implementación de Alto Rendimiento de TikToken de OpenAI

2025-06-30
TokenDagger: Implementación de Alto Rendimiento de TikToken de OpenAI

TokenDagger es una alternativa de alto rendimiento a TikToken de OpenAI, optimizado para el procesamiento de texto a gran escala. Las pruebas de rendimiento muestran que TokenDagger logra una velocidad hasta 4 veces superior en la tokenización de código y un aumento del rendimiento del 2x en comparación con TikToken. Aprovecha un motor de expresiones regulares PCRE2 optimizado y un algoritmo BPE simplificado para mitigar el impacto en el rendimiento de los vocabularios de tokens especiales grandes, TokenDagger proporciona un reemplazo directo. La instalación y las pruebas de rendimiento son sencillas con unos pocos comandos simples.

Desarrollo