全新超级注意力机制HyperAttention:加速LLM推理速度50%、支持处理长篇上下文

全新超级注意力机制HyperAttention:加速LLM推理速度50%、支持处理长篇上下文

AIGC动态欢迎阅读

原标题:全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%

关键词:矩阵、注意力、算法研究者条目

文章来源:机器之心

内容字数:9661字

内容摘要:机器之心报道编辑:大盘鸡。本文介绍了一项近似注意力机制新研究,由耶鲁大学、谷歌研究院等机构提出的HyperAttention,使 ChatGLM2 在32k上下文长度上的推理时间提升了50%。Transformer已经成功应用于自然语言处理、计算机视觉和时间序列预测等多个领域的学习任务。尽管取得了成功,但这些模型仍然面临着严重的可扩展性限制,原因是对其注意力层的精确计算导致了二次(在序列长度上)…

原文链接:点击查阅原文:全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业人工智能媒体和产业服务平台

© 版权声明

相关AI热点

暂无评论

none
暂无评论...