استنتاج LLM المحلي: إمكانات هائلة، لكن الأدوات تحتاج إلى النضج
2025-04-21

تقوم هذه المقالة بقياس أداء أطر استنتاج LLM المحلية مثل llama.cpp و Ollama و WebLLM. تُظهر النتائج أن llama.cpp و Ollama سريعتان بشكل مذهل، لكنهما لا تزالان أبطأ من gpt-4.0-mini من OpenAI. يكمن التحدي الأكبر في اختيار ونشر النماذج: العدد الهائل من إصدارات النماذج ساحق، وحتى نموذج 7B مُكمّن يتجاوز 5 جيجابايت، مما يؤدي إلى عمليات تنزيل وتحميل بطيئة، مما يؤثر على تجربة المستخدم. يجادل الكاتب بأن استنتاج LLM المحلي في المستقبل يحتاج إلى أدوات أبسط لتدريب ونشر نماذج صغيرة خاصة بالمهام، والتكامل الوثيق مع LLMs السحابية، لكي يصبح عمليًا حقًا.