INFP : Un cadre de génération interactive de tête piloté par l'audio pour des conversations dyadiques naturelles
ByteDance présente INFP, un nouveau cadre de génération interactive de tête piloté par l'audio. À partir d'une audio à deux pistes d'une conversation dyadique et d'une seule image portrait, INFP synthétise dynamiquement des vidéos d'agents réalistes avec des indices verbaux, non verbaux et interactifs, y compris des expressions faciales réalistes et des mouvements de tête. Ce cadre léger est idéal pour la communication en temps réel, comme la vidéoconférence. INFP utilise un processus en deux étapes : l'imitation de tête basée sur le mouvement et la génération de mouvement guidée par l'audio. La première étape projette les comportements communicatifs faciaux dans un espace latent de basse dimension, tandis que la seconde étape mappe l'audio dyadique sur ces codes, permettant une génération pilotée par l'audio. Un nouvel ensemble de données de conversation dyadique à grande échelle, DyConv, est également introduit. INFP atteint des performances supérieures et une interaction naturelle.
Lire plus