توكاسوروس: محرك استنتاج جديد لـ LLM لمعالجة أحمال العمل عالية الإنتاجية

2025-06-05
توكاسوروس: محرك استنتاج جديد لـ LLM لمعالجة أحمال العمل عالية الإنتاجية

أصدر باحثون من جامعة ستانفورد محرك استنتاج LLM جديدًا يُدعى توكاسوروس، وهو مُحسّن لأحمال العمل كثيفة الإنتاجية. بالنسبة للنماذج الصغيرة، يستفيد توكاسوروس من انخفاض مُعدل استخدام وحدة المعالجة المركزية للغاية وتجميع هيدروجين الديناميكي للاستفادة من البادئات المُشتركة. بالنسبة للنماذج الكبيرة، يدعم توكاسوروس التوازي المُتزامن للمُصفوفات لوحدات معالجة الرسومات المجهزة بـ NVLink وتطبيقًا سريعًا للتوازي الأنبوبي لوحدات معالجة الرسومات التي تفتقر إليه. في اختبارات الأداء، يتفوق توكاسوروس على vLLM و SGLang بما يصل إلى 3 أضعاف. تم تصميم هذا المحرك للتعامل بكفاءة مع النماذج الكبيرة والصغيرة، مما يُوفر مزايا أداء كبيرة.