Webtagr - 科技资讯摘要

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

AI驱动交互式头像生成框架INFP：赋能自然流畅的对话体验

2024-12-22

字节跳动团队提出了一种名为INFP的全新音频驱动交互式头像生成框架，能够根据双人对话音频和单张人物肖像，动态生成逼真自然的头部视频，包含语言、非语言和交互行为。INFP框架轻量高效，适用于视频会议等即时通讯场景。该框架通过“基于运动的头部模仿”和“音频引导的运动生成”两个阶段，学习将真实对话视频中的面部交流行为投射到低维运动潜在空间，并利用降噪技术学习输入音频与运动潜在编码之间的映射关系，最终实现音频驱动的交互式头部生成。研究团队还发布了名为DyConv的大型双人对话数据集，以促进相关研究。

(grisoon.github.io)