语言模型首次战胜扩散模型在图像和视频生成中,tokenizer关键性作用凸显

语言模型首次战胜扩散模型在图像和视频生成中,tokenizer关键性作用凸显

AIGC动态欢迎阅读

原标题:在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键

关键词:模型, 视觉, 语言, 视频, 本文

文章来源:机器之心

内容字数:6122字

内容摘要:机器之心报道编辑:张倩、陈萍。为何语言模型在视觉生成方面落后于扩散模型?来自谷歌、CMU的研究表明,tokenizer是关键。大型语言模型(LLM或LM)最初用于生成文本,然而随着时间的推移,它们已能够生成多种模态内容,在音频、语音、代码生成、医疗应用、机器人学等领域逐渐占据主导地位。当然,LM也能够生成图像和视频。在这一过程中,图像像素被视觉tokenizer映射为一系列离散符…

原文链接:请点击此处阅读原文:在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业人工智能媒体和产业服务平台

© 版权声明

相关AI热点

暂无评论

none
暂无评论...