TokenDagger: تنفيذ عالي الأداء لـ TikToken من OpenAI

2025-06-30
TokenDagger: تنفيذ عالي الأداء لـ TikToken من OpenAI

يُعدّ TokenDagger بديلاً عالي الأداء لـ TikToken من OpenAI، مُحسّن لمعالجة النصوص على نطاق واسع. تُظهر الاختبارات المعيارية أن TokenDagger أسرع من TikToken بأكثر من 4 أضعاف في تمييز الرموز البرمجية، مع زيادة في الإنتاجية بمقدار الضعف. يستخدم المحرك المُحسّن PCRE2 لتعابير RegEx، ويُبسّط خوارزمية BPE لتقليل تأثير حجم مفردات الرموز الخاصة على الأداء. يُعتبر TokenDagger بديلاً مباشراً ويسهل تثبيته واختباره باستخدام عدد قليل من الأوامر.

التطوير