本文介绍了一种名为Monarch Mixer (M2) 的新架构,该架构在序列长度和模型维度上具有高效的硬件效率。文章从BERT、GPT到SAM和Stable Diffusion等模型展开探讨,指出Transformer虽然当前风头正劲,但并非唯一选择。建议阅读原文以获取更多信息。如果需要联系作者,可以添加微信:almosthuman2014。