智能体/生成式 AI

NVFP4 加速 AI 训练与推理的三大方式

新兴的 AI 模型在规模和复杂性上持续增长,对训练和推理的计算性能需求日益提升,已远超摩尔定律所能满足的范畴。这正是 NVIDIA 采用极致代码设计的原因。通过跨多个芯片与海量软件协同优化,AI 工厂的性能和效率实现了显著的代际跃升。

低精度 AI 格式是提升计算性能和能效的关键。要将超低精度数字的优势应用于 AI 训练和推理,同时维持较高的准确性,需在技术栈的每一层进行深入的工程设计。这包括格式的定义、在芯片中的实现、在众多库中的支持,以及与生态系统紧密协作,以部署新型训练方法和推理优化技术。 NVFP4,开发并实施于 NVIDIA GPU,自 NVIDIA Blackwell 架构起,提供 4 位浮点精度的性能与能效优势,同时保持与更高精度格式相当的准确性。

对于希望进一步提升 AI 训练和推理性能的人来说,以下是关于 NVFP4 的三件事。

1. NVFP4 为 Blackwell 架构上的训练和推理带来了显著的性能提升

NVIDIA Blackwell Ultra GPU 可提供高达 15 petaFLOPS 的峰值密集 NVFP4 吞吐量,达到同一 GPU 上 FP8 吞吐量的 3 倍。性能提升不仅体现在峰值指标上,也反映在训练推理工作负载的实际表现中。

在推理方面,如近期一篇技术博客文章所示,从 FP8 过渡到 NVFP4,可显著提升 DeepSeek-R1(一种广受关注的 671B 参数混合专家(MoE)模型)在特定交互水平下的 token 吞吐量。吞吐量随给定 token 速率的提高而增长,且在更高 token 速率下表现更优,从而带来更佳的用户体验。

A chart plotting per-user interactivity on the x-axis and token throughput per GPU on the y-axis. With the progression from FP8 MTP Off (light gray) to FP8 with MTP On (darker gray) to NVFP4 with MTP On (green), the curves continue to shift to the right, indicating more throughput at a given interactivity level and enabling higher peak interactivity.
图 1. 基于 HGX B200 的 FP8(无 MTP)、FP8(有 MTP)和 NVFP4(有 MTP)在 8K/1K 序列长度及聚合服务下的吞吐量与交互性曲线

NVIDIA 近期还发布了 NVFP4 训练方法,将 NVFP4 的显著性能优势引入模型训练,使模型制造商能够以更低的成本更高效地训练 AI。

Two sets of bar charts, with performance starting with Hopper submissions in prior rounds, followed by Blackwell GB200 NVL72 submissions in v5.0, then finally Blackwell Ultra GB300 NVL72 submissions in v5.1. The speedups listed for Llama 3.1 405B are 1x, ~2x, and 4x+, and 1x, ~3x, and ~5x for Llama 2 70B LoRA, respectively.
图 2. 在 512-GPU 和 8-GPU 规模下,相对于 Llama 3.1 405B 预训练和 Llama 2 70B LoRA 微调的性能表现

在最新一轮的 MLPerf Training 基准测试套件中,多个 NVIDIA GB300 NVL72 系统(共 512 个 Blackwell Ultra GPU)采用 NVFP4 精度协同运行,仅用 64.6 分钟便完成了 Llama 3.1 405B 的预训练基准测试。相较上一轮测试中使用 FP8 精度、由 512 个 Blackwell GPU 构成的多个 NVIDIA GB200 NVL72 系统,此次性能提升达 1.9 倍。

展望未来,NVIDIA Rubin 平台在 NVFP4 训练和推理能力方面将实现显著飞跃,可提供 35 petaFLOPS 的 NVFP4 训练计算性能和 50 petaFLOPS 的 NVFP4 Transformer 引擎推理计算性能。相较于 Blackwell,其性能分别提升了 3.5 倍和 5 倍。

2. NVFP4 可提供卓越的准确性,并在行业基准测试中得到验证

要使封闭组中的 MLPerf 训练和推理提交有效,必须满足基准测试中规定的准确性要求。对于推理,响应需达到特定的准确性数值;对于训练,模型必须按照既定的质量目标进行训练(即模型训练过程必须收敛)。

在新版 MLPerf Training 中,NVIDIA 借助 Blackwell 架构上的 NVFP4 和 Blackwell Ultra GPU,成功提交了所有大语言模型(LLM)测试项目的封闭组结果。此外,NVIDIA 还在 MLPerf 推理测试中,针对多种模型和场景提交了使用 NVFP4 量化技术的版本,涵盖 DeepSeek-R1、Llama 3.1 8B 和 405B,以及 Llama 2 70B。这些模型在采用 NVFP4 量化格式的同时,依然满足了严格的基准测试要求。

 Bar chart showing accuracy scores on the DeepSeek-R1 0528 model, with FP8 baseline and with NVFP4. MMLU-PRO, GPQA Diamond, HLE, and LIVECODEBENCH NVFP4 accuracy is within 1% of the FP8 baseline, SCICODE and Math-500 are the same, and on AIME 2024, NVFP4 is 2% lower.
图 3 显示,NVFP4 的 DeepSeek-R1 模型评估分数与 FP8 基准的准确性非常接近。

3. NVFP4 获得广泛且持续扩展的生态系统支持

借助 NVIDIA Model OptimizerLLM Compressortorch.ao 等库,开发者能够将高精度训练的模型量化为 NVFP4,并实现 NVFP4 KV 缓存,在保持准确性的同时支持长上下文和大批量推理。主流推理框架(包括 NVIDIA TensorRT-LLM、vLLM 和 SGLang)目前已支持运行 NVFP4 格式的模型,并提供基于 NVFP4 的模型变体。例如,在 HuggingFace 上,开发者可以找到可直接部署的 NVFP4 版本 模型,如 Llama 3.3 70BFLUX.2、DeepSeek-R1-0528、Kimi-K2-Thinking、Qwen3-235B-A22B,以及 NVIDIA Nemotron Nano

该生态系统还采用 NVFP4 技术,以提升各类模型的生产推理吞吐量。采用该技术的公司包括 Black Forest Labs、Radical Numerics、Cognition 和 Red Hat。

Black Forest Labs 与 NVIDIA 合作,在 Blackwell 平台上针对 FLUX.2 扩展 NVFP4 推理。Black Forest Labs 联合创始人兼首席执行官 Robin Rombach 表示:“通过 CUDA Graphs、torch.compile、NVFP4 precision 和 TeaCache 等分层优化,我们在单个 B200 上实现了最高达 6.3 倍的加速,显著降低了延迟,推动了更高效的生产部署。”

Radical Numerics 利用 NVFP4 加速科学世界模型的扩展。Radical Numerics 联合创始人兼首席 AI 科学家 Michael Poli 表示:“与语言不同,科学数据推动我们超越经典的单模态自回归方法,需要采用超长上下文技术和稳健的多模态融合方案。” 他补充说,该公司对其新架构在低精度配方下的预训练与后训练前景“高度乐观” 。

Cognition 研究团队成员 Steven Cao 表示,通过在大规模强化学习中采用 NVFP4,Cognition 正在实现“显著的延迟降低和吞吐量提升”。

Red Hat 正在通过 NVFP4 量化 扩展其 LLM 工作负载,使开发者在 边缘和 MoE 模型 方面的基准准确性接近理想水平,同时保持在严格的内存预算范围内。NVFP4 能显著减少激活值和权重的占用空间,且不会造成显著的质量损失,从而使 Red Hat 工程师能够利用现有基础设施,在更大的上下文窗口和更高并发条件下训练与服务先进的 LLM。

NVIDIA Transformer 引擎库包含了 NVFP4 训练方案的实现,以及 Megatron-Bridge 等训练框架的集成,便于开发者快速上手。NVIDIA 还将持续创新,并与生态系统紧密协作,将 NVFP4 训练在性能和效率上的优势推广至整个生态,助力更智能、更复杂模型的加速训练与高效迭代。

了解详情

使用 NVFP4 可在 NVIDIA Blackwell 和 NVIDIA Rubin 平台上实现显著的性能提升。通过极致的代码设计,可在模型训练与推理中以优异的准确性达成这一提升。众多热门开放大语言模型的 NVFP4 版本已广泛可用,使服务能够以更高的吞吐量和更低的每百万 tokens 成本运行这些模型。

详细了解 Rubin 平台实现的重大架构突破(包括增强的 NVFP4)如何将 AI 训练和推理的性能提升至全新高度。

 

标签