INFP:自然な双方向会話を実現する音声駆動型インタラクティブヘッド生成フレームワーク
2024-12-22
バイトダンスは、音声駆動型のインタラクティブヘッド生成フレームワークであるINFPを発表しました。双方向会話のデュアルトラックオーディオと1枚のポートレート画像から、リアルな表情や頭部の動きを含む、自然でリアルなエージェントビデオを動的に生成します。軽量なフレームワークは、ビデオ会議などのリアルタイムコミュニケーションに最適です。INFPは、モーションベースヘッドイミテーションと音声ガイドモーションジェネレーションの2段階プロセスを採用しています。最初の段階では、コミュニケーションのための顔の行動を低次元潜在空間に投影し、2番目の段階では、双方向オーディオをこれらのコードにマッピングすることで、音声駆動型の生成を実現します。大規模な双方向会話データセットDyConvも紹介されています。INFPは、優れたパフォーマンスと自然なインタラクションを実現します。
AI