南大新技术：照片+声音=超逼真视频，口型动作精准还原

AIGC动态欢迎阅读

本文转载自新智元，题为“一张照片、一段声音秒生超逼真视频！南大等提出全新框架，口型动作精准还原”，共计5582字。

最近，南大等机构的研究人员成功开发出一项通用框架，仅凭一段音频即可实现照片上的人物讲述多国语言。无论是头部动作还是嘴部形态，皆极为逼真。只需一段音频配以一张照片，瞬间图中的人物便开始说话。生成的语音动画不仅可以实现口型与音频的无缝对齐，还能表现出自然生动的面部表情和头部姿势。同时，该框架支持多种图像风格，无论是常规照片、卡通图像还是证件照，均能呈现出极为逼真的效果。另外，该框架还支持多种语言，使得照片中的人物仿佛栩栩如生，随时可以开口说外语。这一创新框架名为“VividTalk”，由南大等机构的研究人员提出。它仅需一段语音和一张图片，即可生成高质量的语音视频。

该框架包括两个阶段：由音频生成网格，以及由网格生成视频。在第一阶段中，考虑了面部和混合形状之间的一对多映射关系，利用…

原文链接：一张照片、一段声音秒生超逼真视频！南大等提出全新框架，口型动作精准还原