INFP: Uma estrutura de geração interativa de cabeça baseada em áudio para conversas díades naturais

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2024-12-22

A ByteDance apresenta o INFP, uma nova estrutura de geração interativa de cabeça baseada em áudio. Dado o áudio de duas faixas de uma conversa díades e uma única imagem de retrato, o INFP sintetiza dinamicamente vídeos de agentes realistas com dicas verbais, não verbais e interativas, incluindo expressões faciais realistas e movimentos de cabeça. A estrutura leve é ideal para comunicação em tempo real, como videoconferência. O INFP usa um processo de duas etapas: Imitação de Cabeça Baseada em Movimento e Geração de Movimento Guiada por Áudio. A primeira etapa projeta comportamentos comunicativos faciais em um espaço latente de baixa dimensão, enquanto a segunda mapeia o áudio díades para esses códigos, permitindo a geração dirigida por áudio. Um novo conjunto de dados de conversas díades em larga escala, DyConv, também é introduzido. O INFP alcança desempenho superior e interação natural.