
AIGC动态欢迎阅读
本文转载自新智元,题为“一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原”,共计5582字。
最近,南大等机构的研究人员成功开发出一项通用框架,仅凭一段音频即可实现照片上的人物讲述多国语言。无论是头部动作还是嘴部形态,皆极为逼真。只需一段音频配以一张照片,瞬间图中的人物便开始说话。生成的语音动画不仅可以实现口型与音频的无缝对齐,还能表现出自然生动的面部表情和头部姿势。同时,该框架支持多种图像风格,无论是常规照片、卡通图像还是证件照,均能呈现出极为逼真的效果。另外,该框架还支持多种语言,使得照片中的人物仿佛栩栩如生,随时可以开口说外语。这一创新框架名为“VividTalk”,由南大等机构的研究人员提出。它仅需一段语音和一张图片,即可生成高质量的语音视频。
该框架包括两个阶段:由音频生成网格,以及由网格生成视频。在第一阶段中,考虑了面部和混合形状之间的一对多映射关系,利用…
原文链接:一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。关注人工智能、机器人等前沿领域发展,以及人机融合、人工智能和机器人对人类社会与文明进化的影响,引领中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...