<img src="
"/>
欢迎阅读AIGC动态
原文标题:微调都不需要了?3个样本、1个提示就能完成LLM对齐,提示工程师:全都回来了
文章来源:机器之心
内容字数:8670字
内容摘要:机器之心报道指出,进行LLM对齐调优对于大型模型的效果至关重要。最近,一些研究者开始尝试无需微调的方法。艾伦人工智能研究所和华盛顿大学的研究者通过一种称为“无微调”的新方法,超越了使用监督微调(SFT)和人类反馈强化学习(RLHF)的LLM性能。通常,仅在无监督文本语料库上进行预训练的基础大型语言模型(LLM)通常不能直接用于开源领域的AI助手(如ChatGPT)。因此,为了使这些基础LLM成为有用且无害的AI助手,研究人员经常使用指导微调和偏好学习的方法对它们进行微调。指导微调是指使用人工标注或从GPT-4等专有LLM中收集的数据进行的一种监督微调(SFT)过程。而偏好学习是一种典型的人类反馈强化学习(RLHF),它通过不断微调监督微调后的LLM来进一步与人类偏好保持一致。通过基于微调的对齐方法,LLM得到显著改进,释放了令人印象深刻的潜力,并表明广泛的微调对构建AI…更多内容请查阅原文链接:微调都不需要了?3个样本、1个提示就能完成LLM对齐,提示工程师:全都回来了
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...