代理式 AI/生成式 AI

借助 BroRL 中的扩展功能突破强化学习训练限制

在使用可验证奖励的强化学习(RL)训练大语言模型(LLM)时,一个极具挑战性的问题是如何突破性能瓶颈。之前的 NVIDIA Research 解决方案,延长强化学习(ProRL),表明在延长的训练过程中添加更多强化学习(RL)步骤可以扩展大语言模型的推理能力边界。

然而,团队最终遇到了瓶颈。经过数千步训练后,性能提升逐渐减弱,模型的改进趋于停滞,甚至开始出现下降。更多详细信息请参阅 使用 ProRL v2 通过长时间训练扩展 LLM 强化学习

这引发了一个关键问题:该平台的限制是源于强化学习本身的根本性约束,还是由扩展实施过程中的人为因素所致?

今天,我们很高兴推出 Broadened Reinforcement Learning(BroRL),这是一种全新的范式,探索了一个互补且强有力的扩展维度——部署扩展。BroRL 不仅在训练步数上有所增加,更将每个提示对应的探索性部署数量大幅提升至数百个。这一方法突破了传统方法难以逾越的性能瓶颈,显著提升了数据与计算的利用效率。我们将发布一系列基于 BroRL 训练的先进模型,参数规模达15亿。

本文将深入探讨核心理论见解、最新的经验成果,以及扩展部署为何是解锁大语言模型更高层次推理能力的关键所在。

BroRL 如何实现持续学习?

许多强化学习的扩展工作主要集中在训练时长上,这往往导致学习信号不稳定,使模型难以突破其已有知识的局限。强化学习的认知边界通常受限于其探索策略的能力。

BroRL 通过在每个更新步骤中聚焦于探索的扩展,挑战了这一传统范式。其目标是根本性地稳定强化学习过程,推动实现此前难以突破的持续学习,从而获得超越渐进式改进的显著进展。

分步缩放(例如 ProRL) 滚动缩放(BroRL)
随着训练步数的增加而扩展(3000+) 随着每个提示的滚动次数增加而扩展(N = 512)
在达到性能稳定后出现收益递减 通过全面探索实现稳定且高质量的更新
学习信号可能不稳定且带有噪声 稳健、持续改进
在接近饱和点后更新效率下降 需要更多计算资源与数据
表1:分步缩放(ProRL)与推广缩放(BroRL)的核心对比

部署扩展如何控制 RL 不稳定性?

正如《BroRL:通过拓宽探索扩展强化学习》中所述,我们的理论分析(第2节)表明,强化学习的更新过程受到两种相互竞争因素的控制:已采样的轨迹空间与未采样的空间。

为了进行类比,可以想象自己正穿行于一片广阔而迷蒙的山地,目标是寻找其中的最高山峰。你实际踏足的路径(即抽样展示)会提供可靠且积极的反馈,帮助你不断攀升。然而,那些未曾探索的路径数量极多(即未采样空间),带来了不确定性和干扰。这种干扰如同一种引力,不断将你向下拖拽。当你只派出少数侦察兵(如在ProRL中仅编号为16个)时,他们的反馈往往充满噪声,这种向下的拉力便足以抵消上升的动力,使你陷入停滞状态。

BroRL 解决方案简洁而高效:派遣一支由 512 名侦察兵组成的队伍,对广阔区域进行地图绘制。随着未探索区域的随机噪声在大范围上趋于平均,整体信号显著增强,所有成功路径所产生的“上升信号”也随之变得极为强劲。

在形式分析中,这意味着当 N 较大时,模型性能的净变化为正(\Delta Q_{pos} \ge 0 ),从而提供一个稳定且高质量的学习信号,推动模型不断向更高水平迈进。

突破 RL 性能稳定

我们将 BroRL 方法应用于性能强大的 ProRLv2 模型,该模型在经过 3000 个训练步骤后已趋于稳定。实验结果十分明确。

图1展示了一个鲜明的对比。继续使用ProRL方法(蓝色线)会导致性能停滞并最终下降,而采用BroRL方法(橙色线)则能够恢复模型性能,实现持续且显著的提升,突破原有的性能瓶颈。

A line graph titled ‘Math Score Improvement Over Time’ that displays two lines representing different training methods, labeled ProRL and BroRL, against the training time in hours on the x-axis.
A line graph titled ‘Math Score Improvement Over Time’ that displays two lines representing different training methods, labeled ProRL and BroRL, against the training time in hours on the x-axis.
图1显示,BroRL(N = 512)在数学基准测试中表现出持续的性能提升,而ProRL(N = 16)则较快达到稳定状态,并在长时间训练后性能出现下降。

BroRL 综合结果

我们继续采用原始的 recipe(N = 16)和新的 BroRL recipe(N = 512),在 64 块 NVIDIA H100 GPU 上训练 ProRLv2 检查点,共进行 3000 步。结果差异明显:ProRL 表现停滞,而 BroRL 在更短时间内实现了稳定且显著的提升,使用 64 NVIDIA H100 GPUs。

方法 N RL 步骤 总时间 (h) 数学分数 代码分数 推理分数 Gym 分数
基准 16 2,000 60.14 51.43 59.06
基准 16 3,000 61.69 52.00 61.29
ProRL 16 3,000+225 +56.3 62.08 52.26 62.10
ProRL 16 3,000+535 +133.8 62.02 (静止) 52.74 61.45 (已降级)
BroRL 512 3,000+107 +98.1 62.62 53.31 62.71
BroRL 512 3,000+134 +122.8 62.85 53.48 62.82
BroRL 512 3,000+419 +393.9 63.66 56.64 63.40
表 2:BroRL 与 ProRL 在关键推理基准上的全面性能对比

仅用 98.1 小时,BroRL 就在所有指标上显著超越了 ProRL 方法的最终性能,时间上提前了约 35 小时。这表明,扩大部署规模是一种更高效、更具计算优势的策略,能够有效突破模型性能饱和的瓶颈。

BroRL 为 15 亿个推理模型设立了先进的架构,在数学(63.66)、代码(56.64)和推理 Gym(63.40)基准测试中表现优异,成绩领先。

卓越的计算效率

BroRL 不仅表现优异,而且计算能力更强,智能化程度更高。

  • 算法效率: 大规模 N 部署能够生成更多样化的候选样本集。结合动态采样策略,可有效过滤无信息的轨迹,使通过率从 41% 提升至 62%,显著减少了计算资源的浪费。
  • 硬件效率: BroRL 将生成过程由内存受限转变为计算受限,同时提升了前缀缓存的命中率。由此,GPU 能更充分地发挥其并行处理能力,在当前硬件配置下,吞吐量接近翻倍,从每秒 36.5 个样本提升至 72.4 个样本。
方法 (N) 动态采样通过率 生成吞吐量 (样本/s)
ProRL (16) 41% 36.5
BroRL (512) 62% 72.4
表3:BroRL与ProRL的计算效率指标(采样通过率与吞吐量)

更高的 token 效率

在数学和代码基准测试中,BroRL 以更少的输出 token 实现了更高的准确率,表明其单位 token 的得分效率更优,推理过程更为紧凑,冗余更少。

大规模部署探索(N = 512)为每个提示生成了大量简洁且高产出的推理路径,不仅提升了采样到紧凑而正确推理链的概率,也降低了对冗长、低信息量推理过程的依赖。这种方法实现了响应质量与长度的解耦,避免了因推理步数增加而导致 token 数量不断上升的问题。

Task ProRL 分数 BroRL 分数 分数差 ProRL tokens BroRL tokens Token 差
数学 62.02 63.66 +1.64 16,506 15,760 -745
代码 52.74 56.64 +3.90 26,808 26,090 -717
表 4。BroRL 与 ProRL 在数学及编程任务中的 token 效率对比

开始使用 BroRL

我们的研究发现,部署规模不仅仅是一个超参数,更是扩展强化学习的关键且高效的维度。分步扩展过程中出现的性能停滞,并非强化学习本身的根本性限制,而是由于探索不足所导致的人为因素。核心见解与主要要点包括:

  • 部署扩展是强化学习的一个重要新维度,它提供了更稳定的学习信号,解决了单纯依赖深度扩展难以实现有效学习的问题。
  • 性能的稳定性并不意味着僵化,通过部署扩展可以生成更高质量的策略更新,从而有效应对训练中的挑战。
  • BroRL 具有更高的计算效率,使硬件吞吐量提升一倍,同时显著增强了算法的采样效率。
  • BroRL 在 token 利用效率方面也表现更优,能够以更少的资源实现更佳的训练效果。
  • 新的 BroRL 训练检查点为包含 15 亿参数的推理模型树立了当前领先的技术水平。

对于那些希望借助强化学习充分释放模型潜力的人来说,BroRL 指明了一条清晰的前行方向:当你遇到瓶颈时,不必一味强攻,而应拓宽思路,另寻路径。

首先,探索并评估 Hugging Face 平台上提供的 BroRwL 模型

致谢

感谢叶进、吴方、Zaid Harchaoui、Pavlo Molchanov、Jan Kautz 和 Jun Yang 对本文的贡献。

 

标签