INFP: Un marco de generación interactiva de cabeza impulsado por audio para conversaciones díadas naturales

2024-12-22

ByteDance presenta INFP, un nuevo marco de generación interactiva de cabeza impulsado por audio. Dada la audio de dos pistas de una conversación díada y una sola imagen de retrato, INFP sintetiza dinámicamente videos de agentes realistas con señales verbales, no verbales e interactivas, incluidas expresiones faciales realistas y movimientos de cabeza. El marco ligero es ideal para la comunicación en tiempo real, como las videoconferencias. INFP utiliza un proceso de dos etapas: Imitación de cabeza basada en movimiento y Generación de movimiento guiada por audio. La primera etapa proyecta comportamientos comunicativos faciales en un espacio latente de baja dimensión, mientras que la segunda asigna audio díada a estos códigos, permitiendo la generación impulsada por audio. También se introduce un nuevo conjunto de datos de conversación díada a gran escala, DyConv. INFP logra un rendimiento superior y una interacción natural.

IA