南大新技术:照片+声音=超逼真视频,口型动作精准还原

南大新技术:照片+声音=超逼真视频,口型动作精准还原

AIGC动态欢迎阅读

本文转载自新智元,题为“一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原”,共计5582字。

最近,南大等机构的研究人员成功开发出一项通用框架,仅凭一段音频即可实现照片上的人物讲述多国语言。无论是头部动作还是嘴部形态,皆极为逼真。只需一段音频配以一张照片,瞬间图中的人物便开始说话。生成的语音动画不仅可以实现口型与音频的无缝对齐,还能表现出自然生动的面部表情和头部姿势。同时,该框架支持多种图像风格,无论是常规照片、卡通图像还是证件照,均能呈现出极为逼真的效果。另外,该框架还支持多种语言,使得照片中的人物仿佛栩栩如生,随时可以开口说外语。这一创新框架名为“VividTalk”,由南大等机构的研究人员提出。它仅需一段语音和一张图片,即可生成高质量的语音视频。

该框架包括两个阶段:由音频生成网格,以及由网格生成视频。在第一阶段中,考虑了面部和混合形状之间的一对多映射关系,利用…

原文链接:一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。关注人工智能、机器人等前沿领域发展,以及人机融合、人工智能和机器人对人类社会与文明进化的影响,引领中国新智能时代。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...