FramePack: نموذج ثوري للتنبؤ بالإطار التالي لجيل الفيديو بالذكاء الاصطناعي
2025-04-20
FramePack هو بنية شبكة عصبية ثورية للتنبؤ بالإطار التالي تضغط سياقات الإدخال إلى طول ثابت، مما يجعل عبء عمل التوليد مستقلاً عن طول الفيديو. هذا يحقق تعقيدًا حسابيًا O(1) للبث، ويضع معيارًا جديدًا في جيل الفيديو بالذكاء الاصطناعي. يولد مقاطع فيديو عالية الجودة باستخدام 6 جيجابايت فقط من ذاكرة وحدة معالجة الرسومات على أجهزة الكمبيوتر المحمولة المزودة بـ RTX 3060. تصل سرعة التوليد إلى 1.5 إلى 2.5 ثانية لكل إطار على RTX 4090، لكنها أبطأ بمقدار 4 إلى 8 مرات على أجهزة الكمبيوتر المحمولة المزودة بـ 3070ti/3060. تُزيل طريقة أخذ العينات ثنائية الاتجاه بشكل فعال مشكلة الانحراف الشائعة في جيل الفيديو.
اقرأ المزيد