不蒸馏 R1 也能超越 DeepSeek，上海 AI Lab 用 RL 突破数学推理极限

投稿
APP
微信扫一扫获取更多

不蒸馏 R1 也能超越 DeepSeek，上海 AI Lab 用 RL 突破数学推理极限

飞啦啦

2025-02-16 12:14:22

图灵汇官网

仅通过强化学习，就能超越 DeepSeek！

上海 AI Lab 提出了一种新的强化学习范式——基于结果奖励的强化学习。该研究从 Qwen2.5-32B-Base 模型出发，通过微调和基于结果反馈的强化学习，在不依赖超大模型如 DeepSeek-R1 的情况下，实现了在数学推理方面的突破，超过了 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 系列模型。

团队发现，目前大模型在数学推理任务中面临着三大挑战：

稀疏奖励困境：最终答案的对错反馈使得复杂推理的优化变得困难。
局部正确陷阱：长思维链中部分正确的步骤可能会误导模型学习。
规模依赖魔咒：传统蒸馏方法迫使研究者陷入“参数规模军备竞赛”。

为了应对这些挑战，研究团队重新审视了当前的强化学习算法，经过严格的理论推导和证明，设计了一个新的结果奖励强化学习算法。在此过程中，他们得出三个重要结论：

对于正样本：在二元反馈环境中，通过最佳轨迹采样（BoN）的行为克隆可以学习最优策略。
对于负样本：需要使用奖励重塑来维持策略优化目标的一致性。
对于长序列：不同的序列部分对结果的贡献不同，因此需要更细粒度的奖励分配函数，这个函数可以通过结果奖励习得。

简单来说，通过模仿学习正确的样本、偏好学习错误的样本以及重点学习关键步骤，无需依赖超大规模的模型进行蒸馏，仅通过强化学习就可以取得出色的效果。

此外，团队还对比了不同起点模型的强化学习训练，发现起点模型和训练数据的分布对最终模型的效果非常重要。因此，研究团队将 RL 训练的数据、起点模型和最终模型一并开源，以推动社区的公平比较和进一步研究。项目链接已在文末提供。

从头设计结果奖励强化学习

针对数学推理任务中强化学习面临的稀疏奖励和局部正确难题，团队提出了一种新的策略优化框架——OREAL。

OREAL 通过理论创新实现针对性的算法改进，先论证“为什么这么做更好”，再通过实验说明“怎么做更好”。

正负样本奖励重塑，解决稀疏奖励困境

在数学推理任务的采样流程中，团队经过理论分析，提出了核心见解：在二元反馈机制下，采样包含正确答案的 BoN 设置，其正确轨迹的分布具有一致性特征。这表明，通过直接行为克隆采样的正确轨迹，已经构成了正样本训练中的最优设置。

在模仿学习正样本的基础上，团队发现直接惩罚负样本会导致梯度偏差问题。因此，对负样本的训练原则应是维护优化梯度形式与学习 BoN 分布一致。通过深入分析正负样本的训练梯度，研究者们提出了基于平均准确率 p 的奖励重塑因子，为 GRPO 等算法的改进提供了理论依据。这种设置使模型既能有效吸收成功经验，又能精确识别关键错误边界，从而提升训练性能。

结果奖励「因果溯源」，跳出局部正确陷阱

针对复杂的长推理链问题，OREAL 创新性地设计了 token 重要性估计器。通过构建序列累计形式的奖励函数，将结果奖励逆向分解到每个推理步骤。这种方法能够精确定位核心错误步骤，在训练时实现更精细的梯度更新，显著提升了模型在长序列任务中的表现。

OREAL 框架

团队提出的最优强化学习策略可以概括为：在正确样本上模仿学习，在错误样本上偏好学习，对关键步骤做重点学习。

通过合理的分析和实践，逐步将强化学习性能推向最佳水平。

强化学习超越蒸馏，摆脱规模依赖魔咒

团队在 7B 和 32B 两个规模的模型上仅使用 4 千条高质量训练样本进行了训练和测试。

在 7B 量级上，Oreal-7B 在 MATH-500 上取得了 91.0 的 pass@1 准确率。这是首次通过强化学习而非蒸馏方法达到如此高的精度。这一成绩不仅为基于 RL 的方法树立了新的里程碑，还超越了更大参数量的模型，包括 QWQ-32B-Preview 和 OpenAI-O1-Mini。

此外，将 Oreal 应用于此前最佳的 7B 模型（DeepSeek-r1-Distill-Qwen-7B）后，得到的新模型 OREAL-DSR1-Distill-Qwen-7B 在 MATH-500 上取得了 94.0 的 pass@1 精度，创下 7B 模型的新纪录。千问的基座，经过 DeepSeek 的蒸馏训练，再经过上海 AI Lab 的强化学习训练，达到了中国原创新高度。

对于 32B 模型，Oreal-32B 在 MATH-500 上也达到了 95.0 的分数，超越了同级别的 DeepSeek-r1-Distill-Qwen-32B，实现了 32B 模型的新 SOTA。