
AIGC动态欢迎阅读
原标题:在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键
文章来源:机器之心
内容字数:6122字
内容摘要:机器之心报道编辑:张倩、陈萍。为何语言模型在视觉生成方面落后于扩散模型?来自谷歌、CMU的研究表明,tokenizer是关键。大型语言模型(LLM或LM)最初用于生成文本,然而随着时间的推移,它们已能够生成多种模态内容,在音频、语音、代码生成、医疗应用、机器人学等领域逐渐占据主导地位。当然,LM也能够生成图像和视频。在这一过程中,图像像素被视觉tokenizer映射为一系列离散符…
原文链接:请点击此处阅读原文:在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...