大模型无需微调即可开启对话能力，RLHF已变得不再必要！上海交大校友经验：省时省力又省成本

AIGC动态

本篇文章转载自量子位，原标题为：大模型免微调解锁对话能力，RLHF没必要了！一作上交大校友称，这样做可以节省大量成本和时间。

主要关键词包括：模型、基础、团队、能力和示例。

据悉，如今在人工智能领域，构建与微调相对稳定的大模型已成为行业标准，通常经历SFT和RLHF两阶段。然而，最新来自艾伦研究所的研究却指出，这两个步骤都可能不再必要。新的研究成果表明，预先训练的基础模型已经具备了理解指令的能力，只需适当引导即可解锁这一潜力。此举引发了开发社区的广泛关注，因为RLHF的成本高昂且训练过程不稳定，因此采用这一方法可以带来巨大的成本节约。该研究提出了一种新的免微调对齐方法URIAL。论文将这一新方法描述为“解锁基础模型潜力的咒语”，可以节省大量的计算资源和时间。值得注意的是，即使没有掌握RLHF（人类强化学习）能力的小团队，也可以以较低成本开发出具有对话和遵循指令能力的模型。目前URIAL的代码和新的评估基准Just-Eval-Instruct已经开源，刚刚发布不久。该研究由艾伦研究所和华盛顿大学Yejin Choi团队共同完成，该团队此前提出了Top_p采样等技术。

点击此处查看文章原文。