INFP: إطار توليد رأس تفاعلي مدعوم بالصوت لمحادثات ثنائية طبيعية

2024-12-22

تقدم بايت دانس INFP، وهو إطار جديد لتوليد الرأس التفاعلي المدعوم بالصوت. بفضل الصوت ثنائي المسار من محادثة ثنائية وصورة واحدة للبورتريه، يقوم INFP بتوليد مقاطع فيديو واقعية للوكلاء بشكل ديناميكي مع إشارات لفظية وغير لفظية وتفاعلية، بما في ذلك تعبيرات الوجه الواقعية وحركات الرأس. يُعد الإطار الخفيف مثاليًا للتواصل في الوقت الفعلي مثل مؤتمرات الفيديو. يستخدم INFP عملية من خطوتين: تقليد الرأس القائم على الحركة وتوليد الحركة المُوجهة بالصوت. تقوم الخطوة الأولى بعرض السلوكيات التواصلية للوجه في مساحة كامنة منخفضة الأبعاد، بينما تقوم الخطوة الثانية بتعيين الصوت ثنائي المسار إلى هذه الرموز، مما يسمح بالتوليد المُوجه بالصوت. كما تم تقديم مجموعة بيانات جديدة واسعة النطاق للمحادثات الثنائية، DyConv. يحقق INFP أداءً متفوقًا وتفاعلًا طبيعيًا.