
欢迎阅读AIGC动态
原标题:MIT和香港中文学院的研究者开发出了名为LongLoRA的方法,将LLaMA2模型的上下文扩展至100k
文章来源:机器之心
内容字数:6020字
内容摘要:机器之心报道,编辑部成功扩展了大型模型的上下文长度,无需消耗过多计算资源。通常情况下,大型模型在预训练时的文本长度是固定的,如果要支持更长的文本,则需要微调模型。然而,训练具有长上下文的LLM会消耗大量的计算资源和GPU时间。例如,训练一个具有8192长度上下文的模型,相较于2048长度上下文,需要16倍的计算资源。尽管如此,上下文长度对模型性能至关重要,因为它代表了LLM的…
原文链接:点击此处阅读原文:将LLaMA2上下文扩展至100k,MIT、港中文有了LongLoRA方法
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专注于人工智能领域的媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...