SadTalker：用于风格化音频驱动单图像说话人脸动画的逼真3D运动系数学习

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

SadTalker：用于风格化音频驱动单图像说话人脸动画的逼真3D运动系数学习

2024-01-15

SadTalker 是一种通过人脸图像和语音音频生成说话人头像视频的新方法。它通过从音频中学习逼真的3D运动系数（头部姿势、表情），并隐式地调节一个新的3D感知人脸渲染器来生成说话人头像。该方法使用ExpNet从音频中学习准确的面部表情，并通过条件VAE设计PoseVAE来合成不同风格的头部运动。生成的3D运动系数被映射到所提出的人脸渲染器的无监督3D关键点空间，并合成最终视频。

(sadtalker.github.io)

未分类说话人脸动画 3D运动系数音频驱动

Runway Gen-2 来了

HeyGen