INFP: Un marco de generación interactiva de cabeza impulsado por audio para conversaciones díadas naturales
ByteDance presenta INFP, un nuevo marco de generación interactiva de cabeza impulsado por audio. Dada la audio de dos pistas de una conversación díada y una sola imagen de retrato, INFP sintetiza dinámicamente videos de agentes realistas con señales verbales, no verbales e interactivas, incluidas expresiones faciales realistas y movimientos de cabeza. El marco ligero es ideal para la comunicación en tiempo real, como las videoconferencias. INFP utiliza un proceso de dos etapas: Imitación de cabeza basada en movimiento y Generación de movimiento guiada por audio. La primera etapa proyecta comportamientos comunicativos faciales en un espacio latente de baja dimensión, mientras que la segunda asigna audio díada a estos códigos, permitiendo la generación impulsada por audio. También se introduce un nuevo conjunto de datos de conversación díada a gran escala, DyConv. INFP logra un rendimiento superior y una interacción natural.