Qwen2.5-1M: نماذج لغة كبيرة مفتوحة المصدر بطول سياق يصل إلى مليون رمز
2025-01-26
أصدر فريق Qwen نموذج Qwen2.5-1M، وهو نموذج لغة كبير مفتوح المصدر يدعم ما يصل إلى مليون رمز من طول السياق، في إصدارات 7B و 14B من المعلمات. تتفوق هذه النماذج بشكل كبير على نظيراتها 128K في مهام السياق الطويل، بل تتجاوز GPT-4o-mini في بعض الحالات. كما تم توفير إطار استنتاج مفتوح المصدر قائم على vLLM، والذي يستخدم الانتباه المتناثر لتحقيق زيادة في السرعة من 3x إلى 7x، من أجل نشر فعال. استخدم تدريب Qwen2.5-1M نهجًا تدريجيًا، مدمجًا انتباه الكتلة المزدوجة (DCA) وتقنيات الانتباه المتناثر للتعامل بكفاءة مع السياقات الطويلة.
الذكاء الاصطناعي