本文由机器之心编辑部撰写,介绍了一种名为ReMax的新算法,专为基于人类反馈的强化学习(RLHF)而设计。相比于最常用的PPO算法,ReMax在计算效率上表现出色,能大幅减少GPU内存占用,并提升两倍的训练速度,同时实现简易性,仅需6行代码。该算法没有性能损失,展现出较高的优势。详细内容可查看原文:在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了。如有兴趣,欢迎联系作者,作者微信:almosthuman2014,专业的人工智能媒体和产业服务平台。