代理式 AI/生成式 AI

NVIDIA Blackwell 架构席卷 MLPerf Training v5.1 基准测试

NVIDIA Blackwell 架构在 MLPerf Training v5.1 的各项基准测试中均实现了更快的训练速度,推动本轮测试结果实现显著突破。随着开发者不断探索新架构以及模型规模持续扩大,对训练算力的需求日益增长。满足这一计算需求,需要在 AI 堆栈的各个层面——从芯片、系统到软件——持续创新,以更高效的方式不断提升性能。

MLPerf Training v5.1 是业界长期运行的基准测试系列的最新版本,旨在评估 AI 模型的训练性能。该版本通过测量训练七个代表性模型所需的时间来评估系统表现,涵盖多种应用场景,每个模型均有明确的目标精度要求。基于 Blackwell 架构的 NVIDIA Blackwell 和 NVIDIA Blackwell Ultra GPU,在所有基准测试中,无论是在最大规模还是各提交规模下,均展现出卓越的性能表现。

基准测试 训练时间 最大提交规模
Llama 3.1 405B 预训练任务 10 分钟 5120 块 Blackwell GPU
Llama 3.1 8B 预训练 5.2 分钟 512 块 Blackwell Ultra GPU
Llama 2 70B 模型进行 LoRA 微调 0.40 分钟 512 块 Blackwell Ultra GPU
FLUX.1 模型训练 12.5 分钟 1152 块 Blackwell GPU
DLRM-DCNv2 模型训练 0.71 分钟 64 块 Blackwell GPU
R-GAT 模型训练 0.84 分钟 256 块 Blackwell GPU
RetinaNet 模型训练 1.4 分钟 512 块 Blackwell GPU
表 1 显示,NVIDIA 平台在 MLPerf 训练中测试的每个模型上均能实现更快的训练速度。

MLPerf™ Training v5.0 和 v5.1 的测试结果于 2025 年 11 月 12 日从 www.mlcommons.org 获取,数据来源包括以下条目:5.0-0082、5.1-0002、5.1-0004、5.1-0060、5.1-0070 和 5.1-0072。MLPerf™ 名称及徽标为 MLCommons 协会在美国及其他国家和地区的商标,保留所有权利,未经许可不得使用。更多详情请访问 www.mlcommons.org

NVIDIA 是唯一提交全部基准测试结果的平台。本文将深入探讨这些测试结果及其背后的技术创新。

NVIDIA 首次采用 NVFP4 提交了 FP4 训练方案

低精度 AI 数据格式的创新是推动 Blackwell 架构(为 Blackwell 和 Blackwell Ultra GPU 提供动力)实现性能提升的关键因素。Blackwell 架构在硬件层面支持 FP4 数据格式,包括 NVIDIA 自主设计的 NVFP4 格式,能够在每个时钟周期提供峰值 FP4 吞吐量,达到 FP8 的两倍。而基于这一创新构建的 Blackwell Ultra GPU,进一步将每个时钟周期的 FP4 吞吐量提升至 FP8 的三倍。

如论文所述,使用 NVFP4 对大语言模型进行预训练时,相较于业界的 MXFP4 数据格式,NVFP4 能在相同训练 token 数量下实现更高的精度,或在达到相同精度时显著减少所需的 token 数量。这意味着可以缩短达到目标精度的训练时间,加快模型部署,并有效降低训练成本。

本轮,NVIDIA 在 MLPerf Training 的每个大语言模型(LLM)训练中均采用了 NVFP4,并整合了论文中推荐的多项技术。NVIDIA 的提交方案还细致地应用了“治疗”策略,即在训练过程的特定阶段采用更高精度,以提升模型准确性。具体而言,其结果在最后若干次训练迭代中保持了 FP8 精度。

这些提交要求在技术堆栈的各个层面实现创新,包括在 Blackwell 和 Blackwell Ultra 芯片中对 NVFP4 提供硬件加速支持,涵盖 NVIDIA cuBLAS、NVIDIA Transformer 引擎和 NVIDIA Megatron-Core 等加速库,以及引入新的数值计算技术。

Blackwell Ultra 为大语言模型训练带来显著突破

NVIDIA 在 Blackwell Ultra 平台上提交了首个 MLPerf 训练结果,所使用的 AI 集群代号为“Theia”,该名称源自希腊神话中的视觉女神。该集群由多个 NVIDIA GB300 NVL72 机架级系统构成,通过 NVIDIA Quantum-X800 InfiniBand 技术互联,共集成 512 个 Blackwell Ultra GPU。

Blackwell Ultra GPUs 与 Blackwell GPU 相比,Blackwell Ultra GPU 在多个方面实现了显著提升,包括:

  • 1.5x peak NVFP4 throughput. Blackwell Ultra GPU 采用更新的 Tensor Core,与 Blackwell GPU 相比,每个时钟周期的 FP4 峰值吞吐量提升至 1.5 倍,显著加速数学运算受限的 GEMM 计算。
  • 2x Softmax for attention. 升级后的 Blackwell Ultra GPU 配备了增强的特殊功能单元(SFU),可为关键的 Softmax 操作提供高达 2 倍的加速吞吐量,显著提升注意力机制的效率。在 MLPerf 基准测试中,这一改进使注意力块的运行速度提升最高达 1.3 倍。
  • 1.5x larger HBM3e capacity. HBM3e 容量提升了 1.5 倍。Blackwell Ultra GPU 采用了更高容量的 HBM3e 堆栈,堆叠层数从 Blackwell GPU 的 8-Hi 提升至 12-Hi。在 Llama 2 70B LoRA 基准测试中,这一改进使得整个模型可以完全容纳于单个 GPU 中,无需依赖 CPU 卸载,从而消除了模型并行通信开销,并提升了 GEMM 运算效率。

与 NVIDIA 近期基于 Hopper 架构提交的结果相比,Blackwell Ultra GPU 凭借架构创新、NVFP4 格式的引入以及软件层面的优化,在相同数量 GPU 的条件下,显著提升了预训练和大语言模型微调的性能。

Two sets of bar charts, with performance starting with Hopper submissions in prior rounds, followed by Blackwell GB200 NVL72 submissions in v5.0, then finally Blackwell Ultra GB300 NVL72 submissions in v5.1. The speedups listed for Llama 3.1 405B are 1x, ~2x, and 4x+, and 1x, ~3x, and ~5x for Llama 2 70B LoRA, respectively. Two sets of bar charts, with performance starting with Hopper submissions in prior rounds, followed by Blackwell GB200 NVL72 submissions in v5.0, then finally Blackwell Ultra GB300 NVL72 submissions in v5.1. The speedups listed for Llama 3.1 405B are 1x, ~2x, and 4x+, and 1x, ~3x, and ~5x for Llama 2 70B LoRA, respectively.
图 1。在 512-GPU 和 8-GPU 规模下,相对于 Llama 3.1 405B 预训练和 Llama 2 70B LoRA 微调的性能对比

MLPerf Training v4.1、v5.0 和 v5.1 封闭组测试结果:4.1-0050、5.0-0076、5.0-0067、5.1-0058、5.1-0060。MLPerf 名称及徽标为 MLCommons 协会在美国及其他国家和地区的注册与非注册商标,保留所有权利,未经许可不得使用。更多详情,请访问 www.mlcommons.org

此外,NVIDIA Quantum-X800 网络平台由 NVIDIA ConnectX-8 SuperNIC、NVIDIA Quantum-X800 InfiniBand 交换机以及 NVIDIA LinkX 线缆组成,用于连接构成 Theia 集群的多个 GB300 NVL72 机架。该平台是业界首个且唯一一个在 MLPerf Training 提交中实现 800 Gb/s 网络性能的解决方案。

NVIDIA Blackwell 刷新了 Llama 3.1 405B 模型训练的新纪录

在 MLPerf Training v5.1 中规模大、挑战性强的 Llama 3.1 405B 基准测试上,NVIDIA 凭借 5120 块 Blackwell GPU 实现了 10 分钟的训练时间,创下新纪录。相比此前基于 Blackwell GPU 的最快提交,此次性能提升达 2.7 倍。*

两个主要因素推动了此次性能的显著提升。采用 NVFP4 训练方法并结合通用软件优化后,使用 2560 块 Blackwell GPU 取得了 18.79 的总分。与此前使用相同数量 NVIDIA Hopper 架构 GPU 的结果相比,训练速度提升了 3 倍。此外,在对比上一轮使用 2496 块 Blackwell GPU 与本轮使用 2560 块 Blackwell GPU 的提交结果时,每块 Blackwell GPU 的有效性能也提升了 42%。

* MLPerf® Training v5.0 和 v5.1 的测试结果于 2025 年 11 月 12 日从 www.mlcommons.org 获取,数据来源包括以下提交条目:5.0-0067、5.0-0002、5.0-0003、5.0-0004、5.1-0003、5.1-0004 以及 5.1-0071。每块 GPU 的性能并非官方 MLPerf 指标,而是根据提交的总体性能与系统规模之间的比率计算得出。MLPerf™ 名称及徽标为 MLCommons 协会在美国及其他国家和地区的注册商标,保留所有权利,未经授权不得使用。更多详情请访问 www.mlcommons.org

A dark green line chart indicating MLPerf Training v5.0 baseline, which scales from 512 Blackwell GPUs to 2,496 Blackwell GPUs. Then a lighter green line indicating Blackwell submissions in MLPerf Training v5.1, with points at 512 GPUs, 2,560 GPUs, and 5,120 GPUs. At the 2,560 GPU mark, performance/GPU in v5.1 is indicated as 1.4x that of v5.0, at the 2,496 GPU point. At 5,120 GPUs, a 2.7x increase in perf at max scale is indicated. A dark green line chart indicating MLPerf Training v5.0 baseline, which scales from 512 Blackwell GPUs to 2,496 Blackwell GPUs. Then a lighter green line indicating Blackwell submissions in MLPerf Training v5.1, with points at 512 GPUs, 2,560 GPUs, and 5,120 GPUs. At the 2,560 GPU mark, performance/GPU in v5.1 is indicated as 1.4x that of v5.0, at the 2,496 GPU point. At 5,120 GPUs, a 2.7x increase in perf at max scale is indicated.
图 2。基于 MLPerf Training v5.0 与 MLPerf Training v5.1 提交数据中 Blackwell GPU 的数量,展示其性能扩展情况。

MLPerf™ Training v5.0 和 v5.1 的结果于 2025 年 11 月 12 日从 www.mlcommons.org 获取,相关条目包括:5.0-0001、5.0-0002、5.0-0003、5.0-0004、5.0-0005、5.0-0013、5.0-0014、5.1-0003、5.1-0004、5.1-0071。每块 GPU 的性能并非官方 MLPerf 指标,而是通过将提交的总体性能除以对应的系统规模计算得出。MLPerf™ 名称及徽标为 MLCommons 协会在美国及其他国家和地区的商标,保留所有权利,未经许可不得使用。更多详情请访问 www.mlcommons.org

本次提交的作品采用了总计 5120 个 Blackwell GPU,数量超过上一轮提交最大规模 2496 个 GPU 的两倍。这些 GPU 通过 NVLink 在机架内实现互联扩展,并借助 NVIDIA Quantum-2 InfiniBand 实现跨多个机架的横向扩展。整体性能提升了 2.7 倍,表明得益于更大规模的部署和更高的有效性能,每个 GPU 的性能也相应得到提升。

扩展效率为85%,在将Blackwell GPU数量从512个增加到5120个时,性能可提升10倍。

这一点至关重要,因为它使模型开发者能够扩展训练任务,缩短训练周期和商业化进程,同时确保每增加一块 GPU 都能保持较高的利用率。

Blackwell Ultra 树立了 Llama 3.1 8B 训练性能的新标杆

为确保 MLPerf 训练结果能够准确反映现代 AI 应用场景,我们定期对基准测试进行更新。在本轮测试中,Llama 3.1 8B 取代了 BERT-large,不仅显著提升了模型能力与训练复杂度,同时也为更广泛的平台保留了轻量且易于部署的大型语言模型特性。

在 Llama 3.1 8B 的训练基准测试中,无论是在特定数量的 GPU 上的表现,还是在扩展至大规模运算时的性能,NVIDIA 平台均展现出卓越的效能。

Llama 3.1 8B 的提交作品得益于多项全栈优化。

其中一种方法是采用 NVFP4 训练技术,即使模型规模更小,也能在保持准确性的同时提升性能。

随着上下文长度的增加,注意力机制逐渐成为端到端大语言模型(LLM)预训练性能的关键组成部分。此前,NVIDIA 在 LLM 预训练中采用 BF16 精度处理注意力模块中批量矩阵乘法(BMM)计算的输入。在本次提交的 Llama 3.1 8B 预训练基准测试中,NVIDIA 将注意力 BMM 的输入精度升级为 FP8。该调整适用于前向和反向传播计算过程,从而在注意力 BMM 运算中实现了更高的精度表现。

与 BF16 相比,我们的 FP8 方案在 MLPerf 基准测试的注意力内核中实现了最高达 1.3 倍的性能提升,同时仍能满足基准测试的精度要求。

在本轮预训练基准测试中,FP8 注意力方案对查询(Q)、键(K)和值(V)张量,以及反向传播中使用的输出梯度(dO),均采用按张量动态缩放的 FP8 精度。该 FP8 注意力机制使 Llama 3.1 8B 模型实现了端到端 5% 的性能加速。支持延迟缩放和动态缩放策略的 FP8 注意力实现已集成于 NVIDIA cuDNN 库中,并通过 NVIDIA Transformer 引擎库应用于 NVIDIA 的 MLPerf 提交版本。

为预训练模型实施的其他软件优化主要包括以下方面,重点在于提升设备间内存复制效率和优化张量连接操作。

  • 在 Transformer 引擎中实现了融合的 RoPE 内核,该内核采用合并的 Q、K、V 输入,并直接输出 Q、K、V 张量。这一设计避免了在前向传播过程中对 Q、K、V 张量进行显式分割,以及在反向传播时对 dQ、dK、dV 张量进行拼接操作。
  • 通过采用 SBHD 的注意力布局,保持了原有 BSHD 布局的注意力输入不变,从而无需调整输入数据的排列方式。该实现已在 Megatron-LM 中完成。其中,B 表示批量大小,S 表示序列长度,H 表示注意力头数量,D 表示每个头的维度,与 Transformer 引擎的命名规范 保持一致。
  • 此外,将 amax 的计算集成到前向计算操作中,进一步提升了计算效率。

在新的 FLUX.1 基准测试中实现更高性能

另一项基准测试更新是引入 FLUX.1 图像生成模型,取代了 Stable Diffusion v2。在此项测试中,NVIDIA 表现突出,利用 1152 块 Blackwell GPU 实现了仅 12.5 分钟的快速训练时间。NVIDIA 也是唯一提交该基准结果的平台,充分展现了其训练堆栈的卓越性能与广泛适用性。

Llama 2 70B LoRA 软件优化

在本轮测试中,我们实施了多项融合优化,显著提升了 Llama 2 70B 的 LoRA 微调基准表现。核心思路是采用 LoRALinearLayer,将 LoRA 适配器与冻结的 GEMM 集成在同一模块中。通过构建这一抽象,我们能够统一执行投影运算、缩放运算,并将其结果直接加到冻结的 GEMM 输出中。

要点

NVIDIA 正以每年一次的节奏持续推进创新,涵盖 GPU、CPU、纵向扩展与横向扩展网络、系统架构及软件等多个领域,不断提升性能,降低智能计算成本,为人工智能领域的突破性进展奠定基础。

如需了解更多 NVIDIA 性能数据,可访问数据中心深度学习产品性能中心Performance Explorer页面。

 

标签