INFP: Ein audiogesteuertes interaktives Kopfgenerierungsframework für natürliche dyadische Konversationen

2024-12-22

ByteDance stellt INFP vor, ein neuartiges, audiogesteuertes interaktives Kopfgenerierungsframework. Angesichts von Zweikanal-Audio aus einer dyadischen Konversation und einem einzelnen Porträtbild synthetisiert INFP dynamisch realistische Agentenvideos mit verbalen, nonverbalen und interaktiven Hinweisen, darunter lebensechte Gesichtsausdrücke und Kopfbewegungen. Das leichtgewichtige Framework ist ideal für Echtzeitkommunikation wie Videokonferenzen. INFP verwendet einen zweistufigen Prozess: Bewegungsbasierte Kopfimitation und Audiogesteuerte Bewegungsgenerierung. Die erste Stufe projiziert kommunikative Gesichtsverhaltensweisen in einen niedrigdimensionalen latenten Raum, während die zweite Stufe dyadisches Audio auf diese Codes abbildet, wodurch eine audiogesteuerte Generierung ermöglicht wird. Ein neuer, umfangreicher Datensatz für dyadische Konversationen, DyConv, wird ebenfalls vorgestellt. INFP erreicht überragende Leistung und natürliche Interaktion.

KI