SadTalker 是一种通过人脸图像和语音音频生成说话人头像视频的新方法。它通过从音频中学习逼真的3D运动系数(头部姿势、表情),并隐式地调节一个新的3D感知人脸渲染器来生成说话人头像。该方法使用ExpNet从音频中学习准确的面部表情,并通过条件VAE设计PoseVAE来合成不同风格的头部运动。生成的3D运动系数被映射到所提出的人脸渲染器的无监督3D关键点空间,并合成最终视频。