لماذا تفشل نماذج اللغات الكبيرة بشكل كارثي في المحادثات الطويلة: مصارف الانتباه و StreamingLLM

2025-08-09

اكتشف الباحثون سبب فشل نماذج اللغات الكبيرة (LLMs) بشكل كارثي في المحادثات الطويلة: إزالة الرموز القديمة لتوفير الذاكرة يؤدي إلى إنتاج النماذج لنتائج غير منطقية تمامًا. وجدوا أن النماذج توجه قدرًا هائلاً من الانتباه إلى أول عدد قليل من الرموز كـ "مصارف انتباه" - أماكن لوضع الانتباه غير المستخدم لأن دالة softmax تتطلب أن مجموع الأوزان يكون 1. حلّهم، StreamingLLM، يبقي ببساطة أول 4 رموز بشكل دائم مع تحريك النافذة لكل شيء آخر، مما يسمح بمعالجة مستقرة لأكثر من 4 ملايين رمز بدلاً من آلاف فقط. تم دمج هذه الآلية الآن في HuggingFace و NVIDIA TensorRT-LLM وأحدث نماذج OpenAI. تستخدم نماذج OpenAI مفتوحة المصدر أيضًا آلية مماثلة لمصارف الانتباه، مما يبرز الأثر العملي لهذه الأبحاث.

اقرأ المزيد
الذكاء الاصطناعي

SVDQuant: تسريع ثلاثي على معالجات رسومات Blackwell مع NVFP4

2025-02-22

طور باحثون من معهد ماساتشوستس للتكنولوجيا SVDQuant، وهو نموذج جديد للكمية 4 بت يستخدم فرعًا منخفض الرتبة لامتصاص القيم المتطرفة، مما يؤدي إلى مكاسب كبيرة في الأداء على بنية معالجات رسومات Blackwell من NVIDIA. باستخدام تنسيق NVFP4، يحقق SVDQuant جودة صورة أفضل من INT4 وهو أسرع بثلاث مرات من BF16، مع تقليل استخدام الذاكرة بمقدار 3.5 مرة. البحث مفتوح المصدر ويتضمن عرضًا توضيحيًا تفاعليًا.

اقرأ المزيد