随着 AI 模型持续变得更加智能,人们能够依赖它们完成日益增多的任务。这导致用户(从消费者到企业)与 AI 的交互愈发频繁,从而需要生成更多的 tokens。为了以尽可能低的成本提供这些 tokens,AI 平台需实现更高的每瓦 token 吞吐量。
通过在 GPU、CPU、网络、软件、供电和散热方面的深度协同设计,NVIDIA 持续提升每瓦的 token 吞吐量,从而降低每百万 token 的成本。
此外,NVIDIA 将持续强化其软件堆栈,以在现有平台上实现更高水平的性能。这有助于提升云服务提供商 (CSP)、GPU 云、模型构建商、企业等广泛使用 NVIDIA GPU 的客户群体所部署基础设施的长期价值,使其在更长时间内保持高效运行。
在本文中,我们展示了在 NVIDIA Blackwell 架构上运行的 NVIDIA 推理软件堆栈的最新更新,以及如何通过充分利用堆栈中的各项功能,在 DeepSeek-R1(一种先进的稀疏多专家(MoE)推理模型)的多个应用场景中实现显著的性能提升。
更新的 NVIDIA TensorRT-LLM 软件提升推理性能
NVIDIA GB200 NVL72 机架级扩展平台采用第五代 NVIDIA NVLink 互连技术及 NVLink Switch 芯片,将 72 个 NVIDIA Blackwell GPU 相互连接,在机架内所有芯片之间提供高达 1800 GB/s 的双向带宽。该大型可扩展架构针对基于稀疏 MoE 架构的模型进行优化,能够高效支持专家间频繁的数据交换,以实现高效的 token 生成。
Blackwell 架构还支持 NVFP4 数据格式, 一种 NVIDIA 设计的 4 位浮点格式,相较于其他 FP4 格式,能够更有效地保持精度。此外,分解服务(在一组 GPU 上执行预填充操作,在另一组 GPU 上执行解码操作)等优化也充分利用了 NVL72 架构与 NVLink Switch 技术。
这些架构创新使 NVIDIA GB200 NVL72 能够在最新的开放模型(包括 DeepSeek-R1)上提供业界领先的性能,DeepSeek-R1 是一个包含 6710 亿个参数的稀疏 MoE 模型,可在处理每个 token 时激活 370 亿个参数。
GB200 NVL72 之前展示了 DeepSeek-R1 在 1K/1K 和 8K/1K 输入/输出序列长度下的吞吐量/交互性曲线上,每个 GPU 的卓越吞吐量表现。
NVIDIA TensorRT-LLM 开源库的近期增强功能可优化 LLM 推理,显著提升同一平台的性能,在过去三个月中,每个 Blackwell GPU 的吞吐量最高可提升至原来的 2.8 倍。
这些结果背后的优化包括:
- 扩展 NVIDIA 程序化依赖启动 (PDL) 的应用范围,以降低内核启动延迟,提升不同交互层级的吞吐能力;
- 引入多项底层内核优化,更高效地利用 NVIDIA Blackwell Tensor Core;
- 实现经过新优化的多对多通信原语,消除接收端的额外中间缓冲区。
TensorRT LLM 提供高级 Python LLM API。其 PyTorch 原生架构 便于开发者试验运行时或扩展功能。这些优化是今天在最新版本的 TensorRT-LLM 中可用。
借助多 token 预测与 NVFP4 加速,提升 NVIDIA HGX B200 性能
NVIDIA HGX B200 平台由 8 个 Blackwell GPU 组成,通过第五代 NVLink 互连技术和 NVLink Switch 实现高效连接,可在风冷部署中提供卓越的 DeepSeek-R1 推理性能。
两项关键技术可显著提升 HGX B200 上 DeepSeek-R1 的推理性能。其一是采用 MTP,能大幅提高不同交互层级的吞吐量,这一效果在所有三个经过测试的输入/输出序列组合中均得以体现。
其次是采用 NVFP4,充分释放 Blackwell GPU 所具备的强劲计算能力,在确保准确性的前提下提升性能。
NVFP4 由完整的 NVIDIA 软件堆栈(包括 TensorRT-LLM 和 NVIDIA TensorRT Model Optimizer)驱动,确保了高性能与高准确性。在既定的交互性水平下,这实现了显著的吞吐量提升,并进一步支持在同一 HGX B200 平台上达到更高的交互性水平。
通过充分发挥 NVIDIA Blackwell 平台的全部功能,LLM 能够为更多用户提供服务,并显著提升每位用户的使用体验。
持续提升性能
通过持续优化,NVIDIA 在整个技术栈中不断提升性能。凭借年度产品迭代和持续的工作负载优化,它在多种 AI 模型上提高了 token 的吞吐量,从而为现有产品带来更高的性能与价值。
NVIDIA Blackwell 架构提供行业领先的推理性能,结合 TensorRT-LLM 中的最新软件创新,为 NVIDIA 客户、合作伙伴以及整个 AI 生态系统带来了显著的推理性能提升。
请访问 NVIDIA 数据中心深度学习产品性能 页面,深入了解 NVIDIA 全栈平台所呈现的卓越性能。