PTAG研究在NuerIPS大会上获得满分,颠覆了对强化学习(RL)在推理能力提升的认知。研究表明,推理上限主要由基座模型决定,而非RL本身,蒸馏技术可能更有效。RLVR作为一种无需人工标注的优化方案,曾被视为提升模型推理能力的关键,但该研究质疑了其实际效果。通过pass@k评估指标,研究发现RLVR模型的表现未必超越基础模型,挑战了主流观点。尽管如此,研究仍认可RL在特定场景下的应用价值。此研究激励更多科研探索,推动AI技术发展。

PTAG:给强化学习降温的研究
近日,PTAG引起了广泛关注,其论文在NuerIPS大会上获得了四位审稿人的满分评价,成为该会议唯一一篇满分论文,令人振奋。这项研究的核心结论颠覆了许多人对强化学习(RL)在推理能力提升方面的既定看法:真正决定推理上限的并非强化学习,而是基座模型本身,蒸馏技术反而更有可能实现大模型的自我进化。这一发现为当前火热的可验证奖励强化学习(RLVR)带来了新的思考。
自从大模型推理范式的兴起,RLVR便成为了众多主流模型(如OpenAI-o1、DeepSeek-R1)的主要推动力。由于其无需人工标注,通过自动验证奖励来优化模型,RLVR一度被视作实现模型自我进化、提升推理能力的终极方案。然而,这篇来自清华和上海交通大学的论文却让这一趋势出现了转折,提出了一个重要的问题:如果进化的关键不在于强化学习,那么围绕RLVR的巨额投入与探索又有什么意义呢?
论文题为《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》,并获得了NuerIPS的满分评价,以及ICML 2025 AI4Math Workshop的最佳论文奖。这项研究的动机来源于近年来RLVR在大语言模型中广泛应用于数学、编程和视觉推理等任务的表现提升。研究团队对RLVR的广泛应用进行了深入剖析,试图验证RLVR是否真的能够提升大语言模型的推理能力。
在进行一系列实验后,研究团队得出了一个令人深思的结论:与普遍认知相悖,RLVR的实际作用可能被严重高估。为了得出这一结论,团队采用了pass@k这一关键评估指标,该指标能够更准确地评估模型在多次尝试中成功的概率。这种方法比传统的准确率指标更能反映模型的推理能力。
具体实验中,研究团队将基础模型与RLVR模型进行对比,重点关注不同模型在各基准任务上的pass@k指标。通过对比分析,团队发现RLVR模型的表现并不如预期,甚至在某些情况下未能显著超越基础模型。这一发现不仅挑战了当前的主流观点,也为未来的研究指明了方向。
值得一提的是,这项研究由一支年轻而充满活力的团队完成,团队成员大多来自清华大学LeapLab与上海交通大学。尽管团队成员仍在求学阶段,但他们的研究成果已经在顶级会议上获得认可,展现了中国科研团队的潜力与实力。
这项研究的结论并不意味着强化学习失去了价值。相反,研究者们指出,在一些特定场景下,强化学习依然具有重要的应用价值。同时,研究团队强调,强化学习的优势在于提升模型输出的鲁棒性,而非单纯增强基础能力。
总的来说,这项研究不仅为我们理解强化学习的实际作用提供了新的视角,也激励着更多的研究者在探索人工智能的道路上不断前行。通过质疑现有理论、提出新的假设,科学研究的前景将更加光明,推动人工智能技术的不断进步。




