
AIGC动态
本篇文章转载自量子位,原标题为:大模型免微调解锁对话能力,RLHF没必要了!一作上交大校友称,这样做可以节省大量成本和时间。
主要关键词包括:模型、基础、团队、能力和示例。
据悉,如今在人工智能领域,构建与微调相对稳定的大模型已成为行业标准,通常经历SFT和RLHF两阶段。然而,最新来自艾伦研究所的研究却指出,这两个步骤都可能不再必要。新的研究成果表明,预先训练的基础模型已经具备了理解指令的能力,只需适当引导即可解锁这一潜力。此举引发了开发社区的广泛关注,因为RLHF的成本高昂且训练过程不稳定,因此采用这一方法可以带来巨大的成本节约。该研究提出了一种新的免微调对齐方法URIAL。论文将这一新方法描述为“解锁基础模型潜力的咒语”,可以节省大量的计算资源和时间。值得注意的是,即使没有掌握RLHF(人类强化学习)能力的小团队,也可以以较低成本开发出具有对话和遵循指令能力的模型。目前URIAL的代码和新的评估基准Just-Eval-Instruct已经开源,刚刚发布不久。该研究由艾伦研究所和华盛顿大学Yejin Choi团队共同完成,该团队此前提出了Top_p采样等技术。
点击此处查看文章原文。
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:专注追踪人工智能新动向,关注科技行业最新突破。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...