
本文介绍了由斯坦福和CMU联合团队开发的新型挑战者Mamba,该模型与传统Transformer性能相匹敌,并在处理长文本时具有更高效的性能。Mamba采用了FlashAttention架构,其注意力机制的二次复杂度得到了改善,使得模型具有线性复杂度和更高的推理吞吐量。在语言、音频、DNA序列等多个模态上,Mamba都取得了领先水平的表现。此外,Mamba的相关代码和预训练模型也已经开源。文章提到,Mamba的出现引起了广泛关注,对传统Transformer模型构成了有力冲击。如果您希望阅读完整文章,请点击原文链接。