BERT和GPT:不使用Attention和MLPs的最佳替代方案

BERT和GPT:不使用Attention和MLPs的最佳替代方案的封面图

本文介绍了一种名为Monarch Mixer (M2) 的新架构,该架构在序列长度和模型维度上具有高效的硬件效率。文章从BERT、GPT到SAM和Stable Diffusion等模型展开探讨,指出Transformer虽然当前风头正劲,但并非唯一选择。建议阅读原文以获取更多信息。如果需要联系作者,可以添加微信:almosthuman2014。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...