在使用可验证奖励的强化学习(RL)训练大语言模型(LLM)时,一个极具挑战性的问题是如何突破性能瓶颈。之前的 NVIDIA Research 解决方案,延长强化学习(ProRL),表明在延长的训练过程中添加更多强化学习(RL)步骤可以扩展大语言模型的推理能力边界。
然而,团队最终遇到了瓶颈。经过数千步训练后,性能提升逐渐减弱,模型的改进趋于停滞,甚至开始出现下降。更多详细信息请参阅 使用 ProRL v2 通过长时间训练扩展 LLM 强化学习。
这引发了一个关键问题:该平台的限制是源于强化学习本身的根本性约束,还是由扩展实施过程中的人为因素所致?
今天,我们很高兴推出 Broadened Reinforcement Learning(BroRL),这是一种全新的范式,探索了一个互补且强有力的扩展维度——部署扩展。BroRL 不仅在训练步数上有所增加,更将每个提示对应的探索性部署数量大幅提升至数百个。这一方法突破了传统方法难以逾越的性能瓶颈,显著提升了数据与计算的利用效率。我们将发布一系列基于 BroRL 训练的先进模型,参数规模达15亿。
本文将深入探讨核心理论见解、最新的经验成果,以及扩展部署为何是解锁大语言模型更高层次推理能力的关键所在。
BroRL 如何实现持续学习?
许多强化学习的扩展工作主要集中在训练时长上,这往往导致学习信号不稳定,使模型难以突破其已有知识的局限。强化学习的认知边界通常受限于其探索策略的能力。
BroRL 通过在每个更新步骤中聚焦于探索的扩展,挑战了这一传统范式。其目标是根本性地稳定强化学习过程,推动实现此前难以突破的持续学习,从而获得超越渐进式改进的显著进展。
| 分步缩放(例如 ProRL) | 滚动缩放(BroRL) |
| 随着训练步数的增加而扩展(3000+) | 随着每个提示的滚动次数增加而扩展(N = 512) |
| 在达到性能稳定后出现收益递减 | 通过全面探索实现稳定且高质量的更新 |
| 学习信号可能不稳定且带有噪声 | 稳健、持续改进 |
| 在接近饱和点后更新效率下降 | 需要更多计算资源与数据 |
部署扩展如何控制 RL 不稳定性?
正如《BroRL:通过拓宽探索扩展强化学习》中所述,我们的理论分析(第2节)表明,强化学习的更新过程受到两种相互竞争因素的控制:已采样的轨迹空间与未采样的空间。
为了进行类比,可以想象自己正穿行于一片广阔而迷蒙的山地,目标是寻找其中的最高山峰。你实际踏足的路径(即抽样展示)会提供可靠且积极的反馈,帮助你不断攀升。然而,那些未曾探索的路径数量极多(即未采样空间),带来了不确定性和干扰。这种干扰如同一种引力,不断将你向下拖拽。当你只派出少数侦察兵(如在ProRL中仅编号为16个)时,他们的反馈往往充满噪声,这种向下的拉力便足以抵消上升的动力,使你陷入停滞状态。
BroRL 解决方案简洁而高效:派遣一支由 512 名侦察兵组成的队伍,对广阔区域进行地图绘制。随着未探索区域的随机噪声在大范围上趋于平均,整体信号显著增强,所有成功路径所产生的“上升信号”也随之变得极为强劲。
在形式分析中,这意味着当 N 较大时,模型性能的净变化为正( ),从而提供一个稳定且高质量的学习信号,推动模型不断向更高水平迈进。
突破 RL 性能稳定
我们将 BroRL 方法应用于性能强大的 ProRLv2 模型,该模型在经过 3000 个训练步骤后已趋于稳定。实验结果十分明确。
图1展示了一个鲜明的对比。继续使用ProRL方法(蓝色线)会导致性能停滞并最终下降,而采用BroRL方法(橙色线)则能够恢复模型性能,实现持续且显著的提升,突破原有的性能瓶颈。
BroRL 综合结果
我们继续采用原始的 recipe(N = 16)和新的 BroRL recipe(N = 512),在 64 块 NVIDIA H100 GPU 上训练 ProRLv2 检查点,共进行 3000 步。结果差异明显:ProRL 表现停滞,而 BroRL 在更短时间内实现了稳定且显著的提升,使用 64 NVIDIA H100 GPUs。
| 方法 | N | RL 步骤 | 总时间 (h) | 数学分数 | 代码分数 | 推理分数 | Gym 分数 |
| 基准 | 16 | 2,000 | – | 60.14 | 51.43 | 59.06 | |
| 基准 | 16 | 3,000 | – | 61.69 | 52.00 | 61.29 | |
| ProRL | 16 | 3,000+225 | +56.3 | 62.08 | 52.26 | 62.10 | |
| ProRL | 16 | 3,000+535 | +133.8 | 62.02 (静止) | 52.74 | 61.45 (已降级) | |
| BroRL | 512 | 3,000+107 | +98.1 | 62.62 | 53.31 | 62.71 | |
| BroRL | 512 | 3,000+134 | +122.8 | 62.85 | 53.48 | 62.82 | |
| BroRL | 512 | 3,000+419 | +393.9 | 63.66 | 56.64 | 63.40 |
仅用 98.1 小时,BroRL 就在所有指标上显著超越了 ProRL 方法的最终性能,时间上提前了约 35 小时。这表明,扩大部署规模是一种更高效、更具计算优势的策略,能够有效突破模型性能饱和的瓶颈。
BroRL 为 15 亿个推理模型设立了先进的架构,在数学(63.66)、代码(56.64)和推理 Gym(63.40)基准测试中表现优异,成绩领先。
卓越的计算效率
BroRL 不仅表现优异,而且计算能力更强,智能化程度更高。
- 算法效率: 大规模 N 部署能够生成更多样化的候选样本集。结合动态采样策略,可有效过滤无信息的轨迹,使通过率从 41% 提升至 62%,显著减少了计算资源的浪费。
- 硬件效率: BroRL 将生成过程由内存受限转变为计算受限,同时提升了前缀缓存的命中率。由此,GPU 能更充分地发挥其并行处理能力,在当前硬件配置下,吞吐量接近翻倍,从每秒 36.5 个样本提升至 72.4 个样本。
| 方法 (N) | 动态采样通过率 | 生成吞吐量 (样本/s) |
| ProRL (16) | 41% | 36.5 |
| BroRL (512) | 62% | 72.4 |
更高的 token 效率
在数学和代码基准测试中,BroRL 以更少的输出 token 实现了更高的准确率,表明其单位 token 的得分效率更优,推理过程更为紧凑,冗余更少。
大规模部署探索(N = 512)为每个提示生成了大量简洁且高产出的推理路径,不仅提升了采样到紧凑而正确推理链的概率,也降低了对冗长、低信息量推理过程的依赖。这种方法实现了响应质量与长度的解耦,避免了因推理步数增加而导致 token 数量不断上升的问题。
| Task | ProRL 分数 | BroRL 分数 | 分数差 | ProRL tokens | BroRL tokens | Token 差 |
| 数学 | 62.02 | 63.66 | +1.64 | 16,506 | 15,760 | -745 |
| 代码 | 52.74 | 56.64 | +3.90 | 26,808 | 26,090 | -717 |
开始使用 BroRL
我们的研究发现,部署规模不仅仅是一个超参数,更是扩展强化学习的关键且高效的维度。分步扩展过程中出现的性能停滞,并非强化学习本身的根本性限制,而是由于探索不足所导致的人为因素。核心见解与主要要点包括:
- 部署扩展是强化学习的一个重要新维度,它提供了更稳定的学习信号,解决了单纯依赖深度扩展难以实现有效学习的问题。
- 性能的稳定性并不意味着僵化,通过部署扩展可以生成更高质量的策略更新,从而有效应对训练中的挑战。
- BroRL 具有更高的计算效率,使硬件吞吐量提升一倍,同时显著增强了算法的采样效率。
- BroRL 在 token 利用效率方面也表现更优,能够以更少的资源实现更佳的训练效果。
- 新的 BroRL 训练检查点为包含 15 亿参数的推理模型树立了当前领先的技术水平。
对于那些希望借助强化学习充分释放模型潜力的人来说,BroRL 指明了一条清晰的前行方向:当你遇到瓶颈时,不必一味强攻,而应拓宽思路,另寻路径。
首先,探索并评估 Hugging Face 平台上提供的 BroRwL 模型。
致谢
感谢叶进、吴方、Zaid Harchaoui、Pavlo Molchanov、Jan Kautz 和 Jun Yang 对本文的贡献。