CMU普林斯顿合力推出Mamba新架构,颠覆Transformer霸权,推理速度暴增5倍,解决致命bug

CMU普林斯顿合力推出Mamba新架构,颠覆Transformer霸权,推理速度暴增5倍,解决致命bug

AIGC动态欢迎阅读

原标题:颠覆Transformer霸权!CMU普林斯顿推出新架构Mamba,解决了致命bug并将推理速度提升5倍

关键词:模型、序列、架构、卷积、研究人员

文章来源:新智元

内容字数:15024字

内容摘要:新智元编辑报道:编辑部【新智元导读】CMU和普林斯顿联合推出的Mamba架构可能颠覆Transformer的霸主地位,成功解决了Transformer核心注意力层无法扩展的致命缺陷,直接将推理速度提升了5倍!这标志着深度学习领域可能即将进入新的纪元,同时也意味着长期主宰自然语言领域的Transformer或将受到挑战。自2017年6月12日Transformer问世以来,在NLP领域一直占据主导地位,然而现有架构的核心问题是无法很好地处理长期上下文信息。现在CMU和普林斯顿的研究人员发布的Mamba架构填补了这一缺口。与Transformer相比,这种SSM架构不仅在语言建模方面表现出色,而且具有线性扩展能力,同时推理吞吐量提高了5倍!论文链接:https://arxiv.org/abs/2312.00752。一作作者Albert Gu表示,二次注意力在信息密集型模型中有着重要作用。

原文链接:点击查看完整文章:颠覆Transformer霸权!CMU普林斯顿推出新架构Mamba,解决致命bug推理速度暴增5倍

联系作者

文章来源:新智元

作者微信号:AI_era

作者简介:智能+中国主平台,专注于推动中国走向智能时代,关注人工智能、机器人等前沿领域发展,探讨人机融合、人工智能和机器人对社会与文明进化的影响,引领中国智能时代。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...