فيديوهات مدتها دقيقة واحدة من لوحات القصص النصية باستخدام محولات التدريب أثناء وقت الاختبار

2025-04-08

تكافح نماذج المحولات الحالية في توليد مقاطع فيديو مدتها دقيقة واحدة نظرًا لعدم كفاءة طبقات الاهتمام الذاتي في السياقات الطويلة. يستكشف هذا البحث طبقات التدريب أثناء وقت الاختبار (TTT) ، والتي تعد حالات الاختفاء الخاصة بها شبكات عصبية في حد ذاتها ، مما يوفر قدرة تعبيرية أكبر. يسمح إضافة طبقات TTT إلى محول مدرب مسبقًا بتوليد مقاطع فيديو مدتها دقيقة واحدة من لوحات القصص النصية. تُظهر التجارب التي تستخدم مجموعة بيانات من أفلام الرسوم المتحركة لـ Tom and Jerry أن طبقات TTT تُحسّن بشكل كبير من تماسك الفيديو وسرد القصص مقارنة بالخطوط الأساسية مثل Mamba 2 و Gated DeltaNet ، محققة ميزة 34 نقطة Elo في التقييم البشري. على الرغم من استمرار وجود بعض العيوب ، ربما بسبب قيود النموذج ذي 5 مليارات معلمة ، إلا أن هذا العمل يوضح نهجًا واعدًا قابلًا للتطوير إلى مقاطع فيديو أطول وقصص أكثر تعقيدًا.

الذكاء الاصطناعي التدريب أثناء وقت الاختبار