لماذا تفشل نماذج اللغات الكبيرة بشكل كارثي في المحادثات الطويلة: مصارف الانتباه و StreamingLLM
2025-08-09
اكتشف الباحثون سبب فشل نماذج اللغات الكبيرة (LLMs) بشكل كارثي في المحادثات الطويلة: إزالة الرموز القديمة لتوفير الذاكرة يؤدي إلى إنتاج النماذج لنتائج غير منطقية تمامًا. وجدوا أن النماذج توجه قدرًا هائلاً من الانتباه إلى أول عدد قليل من الرموز كـ "مصارف انتباه" - أماكن لوضع الانتباه غير المستخدم لأن دالة softmax تتطلب أن مجموع الأوزان يكون 1. حلّهم، StreamingLLM، يبقي ببساطة أول 4 رموز بشكل دائم مع تحريك النافذة لكل شيء آخر، مما يسمح بمعالجة مستقرة لأكثر من 4 ملايين رمز بدلاً من آلاف فقط. تم دمج هذه الآلية الآن في HuggingFace و NVIDIA TensorRT-LLM وأحدث نماذج OpenAI. تستخدم نماذج OpenAI مفتوحة المصدر أيضًا آلية مماثلة لمصارف الانتباه، مما يبرز الأثر العملي لهذه الأبحاث.
الذكاء الاصطناعي