借助 BroRL 中的扩展功能突破强化学习训练限制

在使用可验证奖励的强化学习（RL）训练大语言模型（LLM）时，一个极具挑战性的问题是如何突破性能瓶颈。之前的 NVIDIA Research 解决方案，延长强化学习（ProRL），表明在延长的训练过程中添加更多强化学习（RL）步骤可以扩展大语言模型的推理能力边界。

然而，团队最终遇到了瓶颈。经过数千步训练后，性能提升逐渐减弱，模型的改进趋于停滞，甚至开始出现下降。更多详细信息请参阅使用 ProRL v2 通过长时间训练扩展 LLM 强化学习。

这引发了一个关键问题：该平台的限制是源于强化学习本身的根本性约束，还是由扩展实施过程中的人为因素所致？

今天，我们很高兴推出 Broadened Reinforcement Learning（BroRL），这是一种全新的范式，探索了一个互补且强有力的扩展维度——部署扩展。BroRL 不仅在训练步数上有所增加，更将每个提示对应的探索性部署数量大幅提升至数百个。这一方法突破了传统方法难以逾越的性能瓶颈，显著提升了数据与计算的利用效率。我们将发布一系列基于 BroRL 训练的先进模型，参数规模达15亿。

本文将深入探讨核心理论见解、最新的经验成果，以及扩展部署为何是解锁大语言模型更高层次推理能力的关键所在。

BroRL 如何实现持续学习？

许多强化学习的扩展工作主要集中在训练时长上，这往往导致学习信号不稳定，使模型难以突破其已有知识的局限。强化学习的认知边界通常受限于其探索策略的能力。

BroRL 通过在每个更新步骤中聚焦于探索的扩展，挑战了这一传统范式。其目标是根本性地稳定强化学习过程，推动实现此前难以突破的持续学习，从而获得超越渐进式改进的显著进展。

分步缩放（例如 ProRL）	滚动缩放（BroRL）
随着训练步数的增加而扩展（3000+）	随着每个提示的滚动次数增加而扩展（N = 512）
在达到性能稳定后出现收益递减	通过全面探索实现稳定且高质量的更新
学习信号可能不稳定且带有噪声	稳健、持续改进
在接近饱和点后更新效率下降	需要更多计算资源与数据

表1：分步缩放（ProRL）与推广缩放（BroRL）的核心对比

部署扩展如何控制 RL 不稳定性？

正如《BroRL：通过拓宽探索扩展强化学习》中所述，我们的理论分析（第2节）表明，强化学习的更新过程受到两种相互竞争因素的控制：已采样的轨迹空间与未采样的空间。

为了进行类比，可以想象自己正穿行于一片广阔而迷蒙的山地，目标是寻找其中的最高山峰。你实际踏足的路径（即抽样展示）会提供可靠且积极的反馈，帮助你不断攀升。然而，那些未曾探索的路径数量极多（即未采样空间），带来了不确定性和干扰。这种干扰如同一种引力，不断将你向下拖拽。当你只派出少数侦察兵（如在ProRL中仅编号为16个）时，他们的反馈往往充满噪声，这种向下的拉力便足以抵消上升的动力，使你陷入停滞状态。

BroRL 解决方案简洁而高效：派遣一支由 512 名侦察兵组成的队伍，对广阔区域进行地图绘制。随着未探索区域的随机噪声在大范围上趋于平均，整体信号显著增强，所有成功路径所产生的“上升信号”也随之变得极为强劲。

在形式分析中，这意味着当 N 较大时，模型性能的净变化为正（ $\Delta Q_{pos} \ge 0$ ），从而提供一个稳定且高质量的学习信号，推动模型不断向更高水平迈进。

突破 RL 性能稳定

我们将 BroRL 方法应用于性能强大的 ProRLv2 模型，该模型在经过 3000 个训练步骤后已趋于稳定。实验结果十分明确。

图1展示了一个鲜明的对比。继续使用ProRL方法（蓝色线）会导致性能停滞并最终下降，而采用BroRL方法（橙色线）则能够恢复模型性能，实现持续且显著的提升，突破原有的性能瓶颈。

A line graph titled ‘Math Score Improvement Over Time’ that displays two lines representing different training methods, labeled ProRL and BroRL, against the training time in hours on the x-axis. — *图1显示，BroRL（N = 512）在数学基准测试中表现出持续的性能提升，而ProRL（N = 16）则较快达到稳定状态，并在长时间训练后性能出现下降。*

BroRL 综合结果

我们继续采用原始的 recipe（N = 16）和新的 BroRL recipe（N = 512），在 64 块 NVIDIA H100 GPU 上训练 ProRLv2 检查点，共进行 3000 步。结果差异明显：ProRL 表现停滞，而 BroRL 在更短时间内实现了稳定且显著的提升，使用 64 NVIDIA H100 GPUs。

方法	N	RL 步骤	总时间 (h)	数学分数	代码分数	推理分数	Gym 分数
基准	16	2,000	–	60.14	51.43	59.06
基准	16	3,000	–	61.69	52.00	61.29
ProRL	16	3,000+225	+56.3	62.08	52.26	62.10
ProRL	16	3,000+535	+133.8	62.02 (静止)	52.74	61.45 (已降级)
BroRL	512	3,000+107	+98.1	62.62	53.31	62.71
BroRL	512	3,000+134	+122.8	62.85	53.48	62.82
BroRL	512	3,000+419	+393.9	63.66	56.64	63.40

表 2：BroRL 与 ProRL 在关键推理基准上的全面性能对比

仅用 98.1 小时，BroRL 就在所有指标上显著超越了 ProRL 方法的最终性能，时间上提前了约 35 小时。这表明，扩大部署规模是一种更高效、更具计算优势的策略，能够有效突破模型性能饱和的瓶颈。

BroRL 为 15 亿个推理模型设立了先进的架构，在数学（63.66）、代码（56.64）和推理 Gym（63.40）基准测试中表现优异，成绩领先。

卓越的计算效率

BroRL 不仅表现优异，而且计算能力更强，智能化程度更高。

算法效率: 大规模 N 部署能够生成更多样化的候选样本集。结合动态采样策略，可有效过滤无信息的轨迹，使通过率从 41% 提升至 62%，显著减少了计算资源的浪费。
硬件效率: BroRL 将生成过程由内存受限转变为计算受限，同时提升了前缀缓存的命中率。由此，GPU 能更充分地发挥其并行处理能力，在当前硬件配置下，吞吐量接近翻倍，从每秒 36.5 个样本提升至 72.4 个样本。

方法 (N)	动态采样通过率	生成吞吐量 (样本/s)
ProRL (16)	41%	36.5
BroRL (512)	62%	72.4

表3：BroRL与ProRL的计算效率指标（采样通过率与吞吐量）

更高的 token 效率

在数学和代码基准测试中，BroRL 以更少的输出 token 实现了更高的准确率，表明其单位 token 的得分效率更优，推理过程更为紧凑，冗余更少。

大规模部署探索（N = 512）为每个提示生成了大量简洁且高产出的推理路径，不仅提升了采样到紧凑而正确推理链的概率，也降低了对冗长、低信息量推理过程的依赖。这种方法实现了响应质量与长度的解耦，避免了因推理步数增加而导致 token 数量不断上升的问题。

Task	ProRL 分数	BroRL 分数	分数差	ProRL tokens	BroRL tokens	Token 差
数学	62.02	63.66	+1.64	16,506	15,760	-745
代码	52.74	56.64	+3.90	26,808	26,090	-717

表 4。BroRL 与 ProRL 在数学及编程任务中的 token 效率对比

开始使用 BroRL

我们的研究发现，部署规模不仅仅是一个超参数，更是扩展强化学习的关键且高效的维度。分步扩展过程中出现的性能停滞，并非强化学习本身的根本性限制，而是由于探索不足所导致的人为因素。核心见解与主要要点包括：

部署扩展是强化学习的一个重要新维度，它提供了更稳定的学习信号，解决了单纯依赖深度扩展难以实现有效学习的问题。
性能的稳定性并不意味着僵化，通过部署扩展可以生成更高质量的策略更新，从而有效应对训练中的挑战。
BroRL 具有更高的计算效率，使硬件吞吐量提升一倍，同时显著增强了算法的采样效率。
BroRL 在 token 利用效率方面也表现更优，能够以更少的资源实现更佳的训练效果。
新的 BroRL 训练检查点为包含 15 亿参数的推理模型树立了当前领先的技术水平。

对于那些希望借助强化学习充分释放模型潜力的人来说，BroRL 指明了一条清晰的前行方向：当你遇到瓶颈时，不必一味强攻，而应拓宽思路，另寻路径。

首先，探索并评估 Hugging Face 平台上提供的 BroRwL 模型。

致谢

感谢叶进、吴方、Zaid Harchaoui、Pavlo Molchanov、Jan Kautz 和 Jun Yang 对本文的贡献。

借助 BroRL 中的扩展功能突破强化学习训练限制

BroRL 如何实现持续学习？

部署扩展如何控制 RL 不稳定性？