لماذا بعض نماذج اللغات الكبيرة سريعة في السحابة، لكنها بطيئة محليًا؟
تتناول هذه المقالة سبب سرعة نماذج اللغات الكبيرة (LLMs)، وخاصة نماذج الخلط بين الخبراء (MoE) مثل DeepSeek-V3، في الخدمة على نطاق واسع في السحابة، لكنها بطيئة ومكلفة عند تشغيلها محليًا. يكمن المفتاح في الاستنتاج الضخم: تتفوق وحدات معالجة الرسومات (GPUs) في عمليات الضرب الكبيرة للmatrizes، و معالجة طلبات المستخدمين المتعددة دفعة واحدة يحسن من خلال كبيرًا، لكنه يزيد من زمن الوصول. تعتمد نماذج MoE والنماذج ذات الطبقات المتعددة بشكل خاص على المعالجة الضخمة لتجنب مشاكل الأنابيب واستخدام الخبراء غير الكافي. يوازن مقدمو خدمات السحابة بين الإنتاجية وزمن الوصول من خلال ضبط حجم الدُفعات (نافذة التجميع)، بينما تتميز عمليات التشغيل المحلية بطلب واحد فقط عادةً، مما يؤدي إلى انخفاض كبير في استخدام وحدة معالجة الرسومات. قد تنبع كفاءة خدمات OpenAI من بنية نموذج أفضل، أو حيل ذكية للاستنتاج، أو وحدات معالجة رسومات أكثر قوة بكثير.