震惊！NuerIPS唯一满分论文背后的秘密竟然是清华与上交的合作！

6个月前发布aiwei

摘要：

PTAG的研究成果在学术界引起广泛关注，成为NuerIPS大会唯一满分论文。研究表明，推理能力的上限由基座模型特性主导，而非强化学习（RL）决定。模型蒸馏可能在推动大模型自我进化方面更有潜力。研究质疑了可验证奖励的强化学习（RLVR）是否真正提升大语言模型的推理能力，还是仅优化已有能力。通过pass@k指标的实验，结果显示RLVR的作用被高估。尽管强化学习在某些场景仍具应用潜力，但其效果可能源于提高输出分布的鲁棒性。该研究强调了持续探索与创新的重要性。

PTAG 为强化学习降温：一项突破性研究引发的思考

近期，关于PTAG的研究成果在学术界引起了广泛关注。四位审稿人全都给予了这篇论文6分的评价，使其成为NuerIPS大会上唯一获得满分的论文，实在令人振奋。这项研究的核心结论颇具颠覆性：推理能力的上限并非由强化学习所决定，而是基座模型本身的特性在起主导作用。此外，研究还指出，模型蒸馏可能比强化学习更有潜力推动大模型的自我进化。这一发现无疑给当前备受瞩目的可验证奖励的强化学习（RLVR）领域带来了不小的冲击。

自大模型推理范式开启以来，RLVR已经成为许多主流模型（如OpenAI-o1、DeepSeek-R1）的核心驱动力。由于其无需人工标注、通过自动验证奖励来优化模型，RLVR曾被视为实现模型自我进化、提升推理能力的终极解决方案。然而，清华大学和上海交通大学的研究团队通过这篇论文，开始重新审视这一领域的假设，即RLVR是否真的能够拓展大语言模型的推理能力，还是仅仅在优化已有的能力。

这篇名为《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的论文，不仅获得了NuerIPS的满分，还荣获了ICML 2025 AI4Math Workshop的最佳论文奖，并入选了NeurIPS 2025大会的口头报告。这项研究的提出，源于近年来RLVR在提升大语言模型在数学、编程和视觉推理等任务中的表现方面的广泛应用。

研究团队的核心问题是：RLVR是否真的使大语言模型超越其基础模型的推理能力，还是只是优化了已有能力。通过一系列实验，他们得出了一个令人惊讶的结论——与普遍认知相悖，RLVR的实际作用很可能被严重高估。

为了验证这一结论，研究团队采用了pass@k这一关键评估指标，它衡量模型在多次尝试中至少成功一次的几率。这种方法相较于传统的指标（如贪婪解码准确率）更能揭示模型的推理边界，从而能够更准确地判断模型的实际能力。研究团队将基础模型和RLVR模型放在同一批题目上进行反复测试，探索模型是否真正“变聪明”或仅仅是“更会挑答案”。

为了确保实验结果的代表性，团队选取了大语言模型推理能力的三大典型应用领域，并结合权威基准数据集进行全面测试。模型则基于主流大语言模型家族，包括Qwen2.5系列和LLaMA-3.1等，并构建了“基础模型 vs RLVR训练模型”的对照组合。通过对不同模型在各基准任务上的pass@k指标进行多维度分析，研究团队重点关注了RLVR模型与基础模型的差异，以及随着k值增大时，两类模型的pass@k曲线变化趋势。

值得一提的是，这项研究的团队由来自清华大学LeapLab和上海交通大学的优秀研究人员组成，展现了中国在这一领域的强大实力。项目负责人乐洋是清华大学自动化系的博士生，研究方向涉及强化学习、多模态大模型等，曾在多个顶级会议上发表论文，展现了他在学术界的影响力。

尽管研究结果引发了对强化学习的重新审视，但团队强调，这并不意味着强化学习完全没有价值。在某些低采样场景下，强化学习依然具有重要的应用潜力。研究同时指出，强化学习的性能提升，可能源于其使输出分布更加鲁棒，从而促进正确答案出现在TopK结果中，而非基础能力的真正增强。

这项研究的成果震撼了学术界，也为我们带来了新的思考：在快速发展的AI领域，持续的探索和创新是多么重要。只有通过不断的研究与实践，我们才能更深入地理解和推动技术的进步。希望未来能有更多这样的研究，为我们揭示更深层次的真相，推动人工智能的持续发展。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://www.aidh.net/kuaixun/20003.html