谷歌发布全新视频生成大型语言模型VideoPoet

谷歌发布全新视频生成大型语言模型VideoPoet

AI时代新动态

原标题:谷歌推出视频生成巨型语言模型VideoPoet
关键词:视频、模型、文本音频图像
文章来源:AI范儿
字数:2042字

内容摘要:


请点击上方链接关注我们。谷歌推出了VideoPoet,这是一款生成式人工智能系统,能够通过文本等输入创建和编辑视频。与其他竞争模型不同,VideoPoet整合了多项功能于一个模型中,包括文本转视频、图像转视频、视频风格化等。该模型利用多个标记器对视频、图像、音频和文本进行训练,可以生成长度可变、风格多样的视频。
据谷歌表示,VideoPoet是一款专为各种视频生成任务而设计的巨型语言模型,包括文本转视频、图像转视频、视频风格化、视频修复与扩展以及视频转音频等。与其他竞争模型不同,VideoPoet将许多功能融合到一个单一模型中,而不是依赖于为每个任务单独训练的组件。
VideoPoet使用多个标记器(MAGVIT V2 用于视频和图像,SoundStream 用于音频)来训练跨视频、图像、音频和文本多模态的自回归语言模型。一旦模型生成了在特定上下文中有条件的标记,这些标记可以通过标记解码器转换回可视化表示。
VideoPoet能够生成长度可变、风格多样的视频,具体风格取决于输入的文本内容。


原文链接:谷歌推出视频生成巨型语言模型VideoPoet

联系作者

文章来源:AI范儿
作者微信:AI_Insights
作者简介:智能未来,始于Prompt!

© 版权声明

相关AI热点

暂无评论

none
暂无评论...