TokenDagger: Implementação de Alta Performance do TikToken do OpenAI
2025-06-30
TokenDagger é uma alternativa de alto desempenho ao TikToken do OpenAI, otimizado para processamento de texto em larga escala. Benchmarks mostram que o TokenDagger atinge mais de 4x de aumento de velocidade na tokenização de código e um aumento de 2x na taxa de transferência em comparação com o TikToken. Utilizando um mecanismo de expressão regular PCRE2 otimizado e um algoritmo BPE simplificado para mitigar o impacto no desempenho de grandes vocabulários de tokens especiais, o TokenDagger fornece uma substituição direta. A instalação e os testes de desempenho são simples com alguns comandos simples.
Desenvolvimento