INFP: Uma estrutura de geração interativa de cabeça baseada em áudio para conversas díades naturais

2024-12-22

A ByteDance apresenta o INFP, uma nova estrutura de geração interativa de cabeça baseada em áudio. Dado o áudio de duas faixas de uma conversa díades e uma única imagem de retrato, o INFP sintetiza dinamicamente vídeos de agentes realistas com dicas verbais, não verbais e interativas, incluindo expressões faciais realistas e movimentos de cabeça. A estrutura leve é ideal para comunicação em tempo real, como videoconferência. O INFP usa um processo de duas etapas: Imitação de Cabeça Baseada em Movimento e Geração de Movimento Guiada por Áudio. A primeira etapa projeta comportamentos comunicativos faciais em um espaço latente de baixa dimensão, enquanto a segunda mapeia o áudio díades para esses códigos, permitindo a geração dirigida por áudio. Um novo conjunto de dados de conversas díades em larga escala, DyConv, também é introduzido. O INFP alcança desempenho superior e interação natural.

IA