智能体/生成式 AI

借助 NVIDIA Blackwell 实现多专家模型推理的巨大性能飞跃

随着 AI 模型持续变得更加智能,人们能够依赖它们完成日益增多的任务。这导致用户(从消费者到企业)与 AI 的交互愈发频繁,从而需要生成更多的 tokens。为了以尽可能低的成本提供这些 tokens,AI 平台需实现更高的每瓦 token 吞吐量。

通过在 GPU、CPU、网络、软件、供电和散热方面的深度协同设计,NVIDIA 持续提升每瓦的 token 吞吐量,从而降低每百万 token 的成本。

此外,NVIDIA 将持续强化其软件堆栈,以在现有平台上实现更高水平的性能。这有助于提升云服务提供商 (CSP)、GPU 云、模型构建商、企业等广泛使用 NVIDIA GPU 的客户群体所部署基础设施的长期价值,使其在更长时间内保持高效运行。

在本文中,我们展示了在 NVIDIA Blackwell 架构上运行的 NVIDIA 推理软件堆栈的最新更新,以及如何通过充分利用堆栈中的各项功能,在 DeepSeek-R1(一种先进的稀疏多专家(MoE)推理模型)的多个应用场景中实现显著的性能提升。

更新的 NVIDIA TensorRT-LLM 软件提升推理性能

NVIDIA GB200 NVL72 机架级扩展平台采用第五代 NVIDIA NVLink 互连技术及 NVLink Switch 芯片,将 72 个 NVIDIA Blackwell GPU 相互连接,在机架内所有芯片之间提供高达 1800 GB/s 的双向带宽。该大型可扩展架构针对基于稀疏 MoE 架构的模型进行优化,能够高效支持专家间频繁的数据交换,以实现高效的 token 生成。

Blackwell 架构还支持 NVFP4 数据格式, 一种 NVIDIA 设计的 4 位浮点格式,相较于其他 FP4 格式,能够更有效地保持精度。此外,分解服务(在一组 GPU 上执行预填充操作,在另一组 GPU 上执行解码操作)等优化也充分利用了 NVL72 架构与 NVLink Switch 技术。

这些架构创新使 NVIDIA GB200 NVL72 能够在最新的开放模型(包括 DeepSeek-R1)上提供业界领先的性能,DeepSeek-R1 是一个包含 6710 亿个参数的稀疏 MoE 模型,可在处理每个 token 时激活 370 亿个参数。

A chart plotting interactivity on the x-axis and throughput per GPU on the y-axis, 8K input sequence length and 1K output sequence length, with GB200 NVL72 with October 2025 software plotted in gray and the January 2026 software plotted in green and higher across the curve. Both are using NVFP4 precision. A chart plotting interactivity on the x-axis and throughput per GPU on the y-axis, 8K input sequence length and 1K output sequence length, with GB200 NVL72 with October 2025 software plotted in gray and the January 2026 software plotted in green and higher across the curve. Both are using NVFP4 precision.
图 1。借助更新的 NVIDIA TensorRT-LLM 软件,使用 8K/ 1K 序列长度的 GB200 NVL72 DeepSeek-R1 token 吞吐量已大幅提升。

GB200 NVL72 之前展示了 DeepSeek-R1 在 1K/1K 和 8K/1K 输入/输出序列长度下的吞吐量/交互性曲线上,每个 GPU 的卓越吞吐量表现。

A chart plotting interactivity on the x-axis and throughput per GPU on the y-axis using 1K input and 1K output sequence lengths, with GB200 NVL72 with October 2025 software plotted in gray and the January 2026 software plotted in green and higher across the curve. Both are using NVFP4 precision. A chart plotting interactivity on the x-axis and throughput per GPU on the y-axis using 1K input and 1K output sequence lengths, with GB200 NVL72 with October 2025 software plotted in gray and the January 2026 software plotted in green and higher across the curve. Both are using NVFP4 precision.
图 2。借助先进的 NVIDIA TensorRT-LLM 软件,使用 1K/ 1K 序列长度的 GB200 NVL72 DeepSeek-R1 token 吞吐量已大幅提升。

NVIDIA TensorRT-LLM 开源库的近期增强功能可优化 LLM 推理,显著提升同一平台的性能,在过去三个月中,每个 Blackwell GPU 的吞吐量最高可提升至原来的 2.8 倍。

这些结果背后的优化包括:

  • 扩展 NVIDIA 程序化依赖启动 (PDL) 的应用范围,以降低内核启动延迟,提升不同交互层级的吞吐能力;
  • 引入多项底层内核优化,更高效地利用 NVIDIA Blackwell Tensor Core;
  • 实现经过新优化的多对多通信原语,消除接收端的额外中间缓冲区。

TensorRT LLM 提供高级 Python LLM API。其 PyTorch 原生架构 便于开发者试验运行时或扩展功能。这些优化是今天在最新版本的 TensorRT-LLM 中可用。

借助多 token 预测与 NVFP4 加速,提升 NVIDIA HGX B200 性能

NVIDIA HGX B200 平台由 8 个 Blackwell GPU 组成,通过第五代 NVLink 互连技术和 NVLink Switch 实现高效连接,可在风冷部署中提供卓越的 DeepSeek-R1 推理性能。

两项关键技术可显著提升 HGX B200 上 DeepSeek-R1 的推理性能。其一是采用 MTP,能大幅提高不同交互层级的吞吐量,这一效果在所有三个经过测试的输入/输出序列组合中均得以体现。

A chart plotting per-user interactivity on the x-axis and token throughput per GPU on the y-axis. With the progression from FP8 MTP Off (light gray) to FP8 with MTP On (darker gray) to NVFP4 with MTP On (green), the curves continue to shift to the right, indicating more throughput at a given interactivity level and enabling higher peak interactivity. A chart plotting per-user interactivity on the x-axis and token throughput per GPU on the y-axis. With the progression from FP8 MTP Off (light gray) to FP8 with MTP On (darker gray) to NVFP4 with MTP On (green), the curves continue to shift to the right, indicating more throughput at a given interactivity level and enabling higher peak interactivity.
图 3。在 HGX B200 上,使用 1K/1K 序列长度并启用聚合服务时,FP8(无 MTP)、FP8(有 MTP)和 NVFP4(有 MTP)的吞吐量与交互性曲线对比。

其次是采用 NVFP4,充分释放 Blackwell GPU 所具备的强劲计算能力,在确保准确性的前提下提升性能。

A chart plotting per-user interactivity on the x-axis and token throughput per GPU on the y-axis. With the progression from FP8 MTP Off (light gray) to FP8 with MTP On (darker gray) to NVFP4 with MTP On (green), the curves continue to shift to the right, indicating more throughput at a given interactivity level and enabling higher peak interactivity. A chart plotting per-user interactivity on the x-axis and token throughput per GPU on the y-axis. With the progression from FP8 MTP Off (light gray) to FP8 with MTP On (darker gray) to NVFP4 with MTP On (green), the curves continue to shift to the right, indicating more throughput at a given interactivity level and enabling higher peak interactivity.
图 4。在 HGX B200 上,FP8(无 MTP)、FP8(有 MTP)和 NVFP4(有 MTP)在序列长度为 8K/1K 且提供聚合服务时的吞吐量与交互性曲线。

NVFP4 由完整的 NVIDIA 软件堆栈(包括 TensorRT-LLM 和 NVIDIA TensorRT Model Optimizer)驱动,确保了高性能与高准确性。在既定的交互性水平下,这实现了显著的吞吐量提升,并进一步支持在同一 HGX B200 平台上达到更高的交互性水平。

A chart plotting per-user interactivity on the x-axis and token throughput per GPU on the y-axis. With the progression from FP8 MTP Off (light gray) to FP8 with MTP On (darker gray) to NVFP4 with MTP On (green), the curves continue to shift to the right, indicating more throughput at a given interactivity level and enabling higher peak interactivity. A chart plotting per-user interactivity on the x-axis and token throughput per GPU on the y-axis. With the progression from FP8 MTP Off (light gray) to FP8 with MTP On (darker gray) to NVFP4 with MTP On (green), the curves continue to shift to the right, indicating more throughput at a given interactivity level and enabling higher peak interactivity.
图 5。HGX B200 上 FP8(无 MTP)、FP8(有 MTP)和 NVFP4(有 MTP)在 1K/8K 序列长度及聚合服务下的吞吐量与交互性曲线。

通过充分发挥 NVIDIA Blackwell 平台的全部功能,LLM 能够为更多用户提供服务,并显著提升每位用户的使用体验。

持续提升性能

通过持续优化,NVIDIA 在整个技术栈中不断提升性能。凭借年度产品迭代和持续的工作负载优化,它在多种 AI 模型上提高了 token 的吞吐量,从而为现有产品带来更高的性能与价值。

NVIDIA Blackwell 架构提供行业领先的推理性能,结合 TensorRT-LLM 中的最新软件创新,为 NVIDIA 客户、合作伙伴以及整个 AI 生态系统带来了显著的推理性能提升。

请访问 NVIDIA 数据中心深度学习产品性能 页面,深入了解 NVIDIA 全栈平台所呈现的卓越性能。

 

标签