النوى الضخمة: تحطيم زمن استجابة الاستدلال LLM
2025-05-28

لزيادة سرعة نماذج اللغات الكبيرة (LLM) في التطبيقات منخفضة زمن الاستجابة مثل روبوتات الدردشة، طور الباحثون تقنية "النواة الضخمة". تُدمج هذه التقنية تمرير الأمام لنموذج Llama-1B في نواة واحدة، مما يلغي التكاليف العامة لحدود النواة واختناقات أنابيب الذاكرة المتأصلة في الأساليب التقليدية متعددة النوى. تُظهر النتائج تحسينات كبيرة في السرعة على وحدات معالجة الرسوميات H100 و B200، متجاوزةً الأنظمة الحالية بأكثر من 1.5 مرة، وتحقيق زمن استجابة منخفض بشكل كبير.