PTAG的研究成果在学术界引起广泛关注,成为NuerIPS大会唯一满分论文。研究表明,推理能力的上限由基座模型特性主导,而非强化学习(RL)决定。模型蒸馏可能在推动大模型自我进化方面更有潜力。研究质疑了可验证奖励的强化学习(RLVR)是否真正提升大语言模型的推理能力,还是仅优化已有能力。通过pass@k指标的实验,结果显示RLVR的作用被高估。尽管强化学习在某些场景仍具应用潜力,但其效果可能源于提高输出分布的鲁棒性。该研究强调了持续探索与创新的重要性。

PTAG 为强化学习降温:一项突破性研究引发的思考
近期,关于PTAG的研究成果在学术界引起了广泛关注。四位审稿人全都给予了这篇论文6分的评价,使其成为NuerIPS大会上唯一获得满分的论文,实在令人振奋。这项研究的核心结论颇具颠覆性:推理能力的上限并非由强化学习所决定,而是基座模型本身的特性在起主导作用。此外,研究还指出,模型蒸馏可能比强化学习更有潜力推动大模型的自我进化。这一发现无疑给当前备受瞩目的可验证奖励的强化学习(RLVR)领域带来了不小的冲击。
自大模型推理范式开启以来,RLVR已经成为许多主流模型(如OpenAI-o1、DeepSeek-R1)的核心驱动力。由于其无需人工标注、通过自动验证奖励来优化模型,RLVR曾被视为实现模型自我进化、提升推理能力的终极解决方案。然而,清华大学和上海交通大学的研究团队通过这篇论文,开始重新审视这一领域的假设,即RLVR是否真的能够拓展大语言模型的推理能力,还是仅仅在优化已有的能力。
这篇名为《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的论文,不仅获得了NuerIPS的满分,还荣获了ICML 2025 AI4Math Workshop的最佳论文奖,并入选了NeurIPS 2025大会的口头报告。这项研究的提出,源于近年来RLVR在提升大语言模型在数学、编程和视觉推理等任务中的表现方面的广泛应用。
研究团队的核心问题是:RLVR是否真的使大语言模型超越其基础模型的推理能力,还是只是优化了已有能力。通过一系列实验,他们得出了一个令人惊讶的结论——与普遍认知相悖,RLVR的实际作用很可能被严重高估。
为了验证这一结论,研究团队采用了pass@k这一关键评估指标,它衡量模型在多次尝试中至少成功一次的几率。这种方法相较于传统的指标(如贪婪解码准确率)更能揭示模型的推理边界,从而能够更准确地判断模型的实际能力。研究团队将基础模型和RLVR模型放在同一批题目上进行反复测试,探索模型是否真正“变聪明”或仅仅是“更会挑答案”。
为了确保实验结果的代表性,团队选取了大语言模型推理能力的三大典型应用领域,并结合权威基准数据集进行全面测试。模型则基于主流大语言模型家族,包括Qwen2.5系列和LLaMA-3.1等,并构建了“基础模型 vs RLVR训练模型”的对照组合。通过对不同模型在各基准任务上的pass@k指标进行多维度分析,研究团队重点关注了RLVR模型与基础模型的差异,以及随着k值增大时,两类模型的pass@k曲线变化趋势。
值得一提的是,这项研究的团队由来自清华大学LeapLab和上海交通大学的优秀研究人员组成,展现了中国在这一领域的强大实力。项目负责人乐洋是清华大学自动化系的博士生,研究方向涉及强化学习、多模态大模型等,曾在多个顶级会议上发表论文,展现了他在学术界的影响力。
尽管研究结果引发了对强化学习的重新审视,但团队强调,这并不意味着强化学习完全没有价值。在某些低采样场景下,强化学习依然具有重要的应用潜力。研究同时指出,强化学习的性能提升,可能源于其使输出分布更加鲁棒,从而促进正确答案出现在TopK结果中,而非基础能力的真正增强。
这项研究的成果震撼了学术界,也为我们带来了新的思考:在快速发展的AI领域,持续的探索和创新是多么重要。只有通过不断的研究与实践,我们才能更深入地理解和推动技术的进步。希望未来能有更多这样的研究,为我们揭示更深层次的真相,推动人工智能的持续发展。




