TokenDagger:OpenAI TikToken 的高性能替代方案

2025-06-30
TokenDagger:OpenAI TikToken 的高性能替代方案

TokenDagger 是 OpenAI TikToken 的一个高性能替代品,针对大规模文本处理进行了优化。基准测试显示,在代码标记化方面,TokenDagger 的速度是 TikToken 的 4 倍以上,整体吞吐量提升 2 倍。该项目基于优化的 PCRE2 正则表达式引擎,并简化了字节对编码 (BPE) 算法,从而减少了大型特殊标记词汇表对性能的影响。开发者只需简单的几行命令即可安装和运行 TokenDagger,并进行性能测试。