震惊！NuerIPS唯一满分论文竟然出自清华与上交，内幕大揭秘！

6个月前发布aiwei

摘要：

PTAG研究在NuerIPS大会上获得满分，颠覆了对强化学习（RL）在推理能力提升的认知。研究表明，推理上限主要由基座模型决定，而非RL本身，蒸馏技术可能更有效。RLVR作为一种无需人工标注的优化方案，曾被视为提升模型推理能力的关键，但该研究质疑了其实际效果。通过pass@k评估指标，研究发现RLVR模型的表现未必超越基础模型，挑战了主流观点。尽管如此，研究仍认可RL在特定场景下的应用价值。此研究激励更多科研探索，推动AI技术发展。

PTAG：给强化学习降温的研究

近日，PTAG引起了广泛关注，其论文在NuerIPS大会上获得了四位审稿人的满分评价，成为该会议唯一一篇满分论文，令人振奋。这项研究的核心结论颠覆了许多人对强化学习（RL）在推理能力提升方面的既定看法：真正决定推理上限的并非强化学习，而是基座模型本身，蒸馏技术反而更有可能实现大模型的自我进化。这一发现为当前火热的可验证奖励强化学习（RLVR）带来了新的思考。

自从大模型推理范式的兴起，RLVR便成为了众多主流模型（如OpenAI-o1、DeepSeek-R1）的主要推动力。由于其无需人工标注，通过自动验证奖励来优化模型，RLVR一度被视作实现模型自我进化、提升推理能力的终极方案。然而，这篇来自清华和上海交通大学的论文却让这一趋势出现了转折，提出了一个重要的问题：如果进化的关键不在于强化学习，那么围绕RLVR的巨额投入与探索又有什么意义呢？

论文题为《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》，并获得了NuerIPS的满分评价，以及ICML 2025 AI4Math Workshop的最佳论文奖。这项研究的动机来源于近年来RLVR在大语言模型中广泛应用于数学、编程和视觉推理等任务的表现提升。研究团队对RLVR的广泛应用进行了深入剖析，试图验证RLVR是否真的能够提升大语言模型的推理能力。

在进行一系列实验后，研究团队得出了一个令人深思的结论：与普遍认知相悖，RLVR的实际作用可能被严重高估。为了得出这一结论，团队采用了pass@k这一关键评估指标，该指标能够更准确地评估模型在多次尝试中成功的概率。这种方法比传统的准确率指标更能反映模型的推理能力。

具体实验中，研究团队将基础模型与RLVR模型进行对比，重点关注不同模型在各基准任务上的pass@k指标。通过对比分析，团队发现RLVR模型的表现并不如预期，甚至在某些情况下未能显著超越基础模型。这一发现不仅挑战了当前的主流观点，也为未来的研究指明了方向。

值得一提的是，这项研究由一支年轻而充满活力的团队完成，团队成员大多来自清华大学LeapLab与上海交通大学。尽管团队成员仍在求学阶段，但他们的研究成果已经在顶级会议上获得认可，展现了中国科研团队的潜力与实力。

这项研究的结论并不意味着强化学习失去了价值。相反，研究者们指出，在一些特定场景下，强化学习依然具有重要的应用价值。同时，研究团队强调，强化学习的优势在于提升模型输出的鲁棒性，而非单纯增强基础能力。

总的来说，这项研究不仅为我们理解强化学习的实际作用提供了新的视角，也激励着更多的研究者在探索人工智能的道路上不断前行。通过质疑现有理论、提出新的假设，科学研究的前景将更加光明，推动人工智能技术的不断进步。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://www.aidh.net/kuaixun/20004.html