INFP: Ein audiogesteuertes interaktives Kopfgenerierungsframework für natürliche dyadische Konversationen

Beliebte Tags：

Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Bitmap-Grafiken Alle Tags

INFP: Ein audiogesteuertes interaktives Kopfgenerierungsframework für natürliche dyadische Konversationen

2024-12-22

ByteDance stellt INFP vor, ein neuartiges, audiogesteuertes interaktives Kopfgenerierungsframework. Angesichts von Zweikanal-Audio aus einer dyadischen Konversation und einem einzelnen Porträtbild synthetisiert INFP dynamisch realistische Agentenvideos mit verbalen, nonverbalen und interaktiven Hinweisen, darunter lebensechte Gesichtsausdrücke und Kopfbewegungen. Das leichtgewichtige Framework ist ideal für Echtzeitkommunikation wie Videokonferenzen. INFP verwendet einen zweistufigen Prozess: Bewegungsbasierte Kopfimitation und Audiogesteuerte Bewegungsgenerierung. Die erste Stufe projiziert kommunikative Gesichtsverhaltensweisen in einen niedrigdimensionalen latenten Raum, während die zweite Stufe dyadisches Audio auf diese Codes abbildet, wodurch eine audiogesteuerte Generierung ermöglicht wird. Ein neuer, umfangreicher Datensatz für dyadische Konversationen, DyConv, wird ebenfalls vorgestellt. INFP erreicht überragende Leistung und natürliche Interaktion.

(grisoon.github.io)

OpenAIs o3-Modell: Hype vs. Realität

Das Krebsrisiko sinkt mit dem Alter: Studie enthüllt Schlüsselprotein NUPR1