Mamba带火的SSM：苹果、康奈尔开始关注的注意力扩散模型

《AIGC动态》欢迎阅读

原题目：丢掉注意力的扩散模型：Mamba带火的SSM被苹果、康奈尔盯上了

关键词：模型、架构、注意力、图像、序列

文章来源：机器之心

内容字数：6975字

内容摘要：近日，机器之心报道了一个备受关注的研究，康奈尔大学和苹果联合开展的研究表明，为了在生成高分辨率图像时减少算力消耗，可以摒弃传统的注意力机制。注意力机制作为Transformer架构中的重要组成部分，在文本和图像生成中扮演着关键角色。然而，其计算复杂度随着序列长度增加呈二次方增长，对于长文本和高分辨率图像处理带来了挑战。为了解决这一问题，研究团队采用了状态空间模型（SSM）替代了传统的注意力机制，提出了一种名为Diffusion State Space Model（DIFFUSSM）的新架构。这种新架构在图像生成方面表现出色，可以使用更少的算力达到甚至超越传统带有注意力模块的扩散模型。随着这一研究的发布，状态空间模型SSM受到了越来越多的关注。Mamba模型的核心在于…

原文链接：想要了解更多，请点击阅读原文：丢掉注意力的扩散模型：Mamba带火的SSM被苹果、康奈尔盯上了