AI驱动交互式头像生成框架INFP:赋能自然流畅的对话体验

2024-12-22

字节跳动团队提出了一种名为INFP的全新音频驱动交互式头像生成框架,能够根据双人对话音频和单张人物肖像,动态生成逼真自然的头部视频,包含语言、非语言和交互行为。INFP框架轻量高效,适用于视频会议等即时通讯场景。该框架通过“基于运动的头部模仿”和“音频引导的运动生成”两个阶段,学习将真实对话视频中的面部交流行为投射到低维运动潜在空间,并利用降噪技术学习输入音频与运动潜在编码之间的映射关系,最终实现音频驱动的交互式头部生成。研究团队还发布了名为DyConv的大型双人对话数据集,以促进相关研究。

AI