SemiAnalysis 近期推出了 InferenceMAX v1,这是一项全新的开源计划,旨在提供一套全面评估推理硬件性能的方法。已公布的结果显示,NVIDIA GPU 在各类工作负载中均展现出卓越的推理性能。
数据揭示了一个清晰的趋势:NVIDIA Blackwell 的性能相较 Hopper 系列提升了 15 倍,带来了同等倍数的收入增长潜力(图 1)。这一显著的性能提升与商业价值,得益于深度的硬件与软件协同优化设计。其架构原生支持 NVFP4 低精度格式、第五代 NVIDIA NVLink 和 NVLink Switch,同时结合 NVIDIA TensorRT-LLM 和 NVIDIA Dynamo 推理框架,全面释放了计算潜能。
随着 InferenceMAX v1 的开源,AI 社区 now 能够复现 NVIDIA 在行业中的卓越性能。我们诚邀客户、合作伙伴以及更广泛的生态系统采用这些方法,验证 NVIDIA Blackwell 在多种 AI 推理 场景中的通用性与领先性能。
这项由 SemiAnalysis 进行的独立第三方评估再次印证了 NVIDIA 推理平台在大规模 AI 部署中所展现出的卓越性能。
深入了解 InferenceMAX v1
InferenceMAX v1 的一个重要区别在于其持续的自动化测试机制。基准测试扫描的持续集成(CI)结果每日发布,并在多个推理框架(SGLang、TensorRT-LLM 和 vLLM)中执行测试,以及时捕捉软件新版本带来的性能提升。
基准测试覆盖了单节点和多节点环境下的专家并行(EP)配置,以确保测试结果能够反映实际生产环境中多样化的部署场景。表1详细列出了已测试的模型、精度、输入序列长度(ISL)和输出序列长度(OSL)。为体现真实部署中的动态特性,测试采用了可变的序列长度,范围为ISL和OSL组合的80%至100%。
| 模型 | 类型 | 参数 | 精度 | 聊天 (ISL/OSL) | 摘要 (ISL/OSL) | 深度推理 (ISL/OSL) |
| DeepSeek-R1 | MoE | 671B (37B 激活) |
FP8, NVFP4 | 1K/1K | 8K/1K | 1K/8K |
| gpt-oss-120b | MoE | 117B (5.1B 激活) | FP8, MXFP4 | 1K/1K | 8K/1K | 1K/8K |
| Llama 3.3 70B | Dense | 70B | FP8, NVFP4 | 1K/1K | 8K/1K | 1K/8K |
InferenceMAX v1 提供多维度的数据支持,涵盖延迟、吞吐量、批量大小以及多种输入/输出比例,适用于推理任务、文档处理与摘要生成,以及聊天场景等多种应用。
NVIDIA Blackwell 在 InferenceMAX v1 中的表现如何?
InferenceMAX v1 基准测试结果清晰表明,从 NVIDIA Blackwell DGX B200 及 NVIDIA GB200 NVL72 平台升级至 NVIDIA Hopper HGX H200 平台,实现了显著的代际跃升,在效率和成本效益方面均有大幅提升。Blackwell 架构采用第五代 Tensor Core,支持原生 FP4 加速,配备高达 1800 GB/秒的 NVLink 带宽,并搭载新一代 HBM3e 显存。
这使得每瓦计算性能和内存带宽均提升了一个数量级,相较于 Hopper,能效显著提高,处理每百万个 token 的成本也大幅降低。
本文将深入探讨这些成果背后的关键创新,并详细解析Blackwell架构如何实现卓越的性能表现。
持续的软件优化能够逐步提升系统性能
除了稳步推进 NVIDIA 硬件的创新,NVIDIA 还通过持续的软件优化不断提升性能。在 gpt-oss-120b 初始模型发布时,基于 TensorRT-LLM 的 Blackwell B200 虽已实现稳定的性能表现,但仍有优化空间,因为早期每个 GPU 的吞吐量远低于当前的高水平。在短时间内,NVIDIA 工程团队与更广泛的社区紧密协作,共同针对开源大语言模型对 TensorRT-LLM 堆栈进行深度优化,显著提升了整体性能(图 2)。
图2中的B200 InferenceMax v1配置展示了自8月5日推出gpt-oss以来的进展,显著提升了帕累托前沿上各工作点的吞吐量。相比模型上线初期,B200的吞吐量已达到每位用户约100 TPS,InferenceMax v1的性能提升接近两倍。
展望10月9日,最新版本的 TensorRT-LLM 引入了多项强大新功能,例如专家并行(EP)和数据与专家并行(DEP)映射。相较于发布当日,系统在每位用户达到 100 TPS 的条件下,最大吞吐量提升了 5 倍,每个 GPU 的吞吐量从约 6K 提升至 3 万。实现这一提升的方法之一是支持更高的并发请求量,而当前 InferenceMAX v1 基准测试仅覆盖 4 到 64 个并发请求,未能充分体现新版本在高并发场景下的性能优势。
此外,通过在多个 GPU 上分配 GPT-OSS-120B 的注意力层和 MoE 层,并采用 DEP 等并行策略,系统实现了高吞吐量。得益于 NVLink 和 NVLink Switch 提供的 1800 GB/s 双向带宽,高效的多对多通信避免了传统 PCIe 架构的瓶颈。这种高并发能力使系统能够以全速处理多个并发的推理请求,让所有用户充分释放硬件性能(图 3)。
例如,在完整的 DEP2 方案中,每个请求的注意力计算都在单个 GPU 上完成(其 KV 缓存已实现本地化),而 MoE 层的专家 token 则被动态路由至两个 GPU 进行处理(每个 GPU 负责 64 个专家)。NVLink Switch 架构可高效分发和聚合这些专家 token,确保 GPU 之间实现低延迟的直接通信与数据交换。
另一个重要里程碑是,采用新发布的 gpt-oss-120b-Eagle3-v2 模型为 gpt-oss-120b 实现了预测性解码。得益于 EAGLE 技术的加持,相比此前发布的 InferenceMAX v1 结果,在每用户 100 TPS 的条件下,单个 GPU 的吞吐量提升了 3 倍,从每秒 1 万个 token 增至 3 万个 token,显著提升了大规模推理的响应速度与成本效益。
考虑到这些软件优化,自模型发布以来的两个月内,在每用户 100 TPS 的负载下,每百万 token 的成本已降低至原来的五分之一,从发布初期的 0.11 美元降至目前的 0.02 美元(见图 4)。对于 API 服务提供商而言,这意味着模型推理速度的提升带来了更高的收入潜力,同时大规模部署的成本也显著下降。即使在每用户 400 TPS 的高交互性场景下,每百万 token 的成本仍可维持在 0.12 美元的较低水平,从而为更复杂的多智能体应用提供了可行性支持。
这些分层的软件增强功能与开放式创新相融合,充分体现了 NVIDIA 在推动生成式 AI 的硬件与软件边界实现大规模突破方面的坚定承诺。
NVIDIA Blackwell 借助 NVFP4 技术,为 Llama 3.3 70B 的高效推理提供强大支持
Blackwell B200 在针对 Llama 3.3 70B 等大规模密集型 AI 模型的 InferenceMAX v1 基准测试中,树立了新的性能标杆。这类模型因参数量庞大,且在推理过程中需激活全部参数,对计算资源的需求极高。在 Llama 3.3 70B 1K/1K 的测试场景下,Blackwell 以每位用户 50 TPS 的速度实现每秒 10,000 个 token 的处理能力,相较 Hopper H200,单 GPU 的吞吐量提升超过 4 倍(图 5)。
这表明,Blackwell 架构的创新(如 NVFP4)能够在密集型和稀疏型工作负载中提供卓越的推理性能,无论模型复杂度如何,均可为用户带来更快的响应速度和更流畅的体验。
通过在推理这一前沿领域对性能和总体拥有成本(TCO)的全面评估,InferenceMAX v1 表明,NVIDIA Blackwell 平台不仅在关键节点上表现突出,更在广泛的运营需求范围内展现出领先优势。
Blackwell GB200 NVL72 树立了人工智能领域成本效益的新标杆
InferenceMAX v1 的数据显示,在 DeepSeek-R1 推理模型上,GB200 NVL72 相较于上一代 H200 能够提供更优的总体拥有成本(TCO)(图 6)。
在所有测量的交互性级别(以每位用户每秒 token 数量衡量)下,GB200 NVL72 相较于 H200 均实现了每百万 token 成本的显著降低。例如,在每位用户每秒约 75 个 token 的交互水平下,H200 的成本为每百万 token 1.56 美元,而 GB200 NVL72 将该成本降至略高于 0.10 美元,降幅达 15 倍。此外,GB200 的成本曲线在更长时间内保持平稳,使其能够在成本明显上升之前,为每位用户提供超过 100 TPS 的服务支持。
对于大规模 AI 部署而言,这一性能提升具有深远影响:AI 工厂采用 GB200 NVL72 能够在不增加运营成本或牺牲吞吐量的前提下,以更高的交互性更好地服务更多用户。
总体而言,随着交互需求和并发用户数量的增加,GB200 NVL72 在所有对比架构中实现了最低的每百万 token 成本,成为大规模扩展用户群体并提升收益的理想选择。
解析服务,以及 GB200 NVL72、Dynamo 和 TensorRT-LLM 如何充分发挥 MoE 模型的性能潜力
经验证的 SemiAnalysis 基准测试(图 1 和图 6)表明,在多种 SLA 限制条件下,GB200 NVL72 与 Dynamo 及 TensorRT-LLM 的组合显著提升了 DeepSeek-R1 等 MoE 模型的吞吐量,性能优于上一代基于 Hopper 的系统。
GB200 NVL72 采用纵向扩展设计,通过高速 NVLink 将 72 个 GPU 紧密连接,构成一个高度集成的单一计算域,GPU 间通信带宽高达 130 TB/s。这种高带宽、低延迟的互连架构对 MoE 模型尤为关键,能够实现专家模块间的高效通信,有效避免传统节点间互联(如 InfiniBand)可能带来的性能瓶颈。
与此同时,Dynamo 中的分解推理通过将不同 GB200 NVL72 节点的预填充与解码阶段进行分离,进一步提升了效率。这种分离具有重要意义,因为它使得每个阶段能够独立地针对不同的 GPU 数量和配置进行优化。如今,内存受限的解码阶段可以利用 Wide EP 实现专家并行执行,而不会对计算密集型的预填充阶段造成干扰。
TensorRT-LLM 有效降低了 EP 部署中 GPU 利用率不足的风险。在大规模 EP 应用中,部分 GPU 可能因托管激活频率较低的专家而处于空闲状态,导致计算资源浪费。为应对这一问题,TensorRT-LLM 在广泛的 EP 实现中引入了智能负载监控机制,能够动态跟踪各专家的使用情况,并将高频调用的专家合理分配至不同 GPU。此外,系统还可对热门专家进行复制,进一步优化工作负载的均衡性。这些机制共同保障了 GPU 资源的高效利用,从而提升整体性能。
GB200 NVL72、Dynamo 与 TensorRT-LLM 共同构建了一个高效的推理优化堆栈,充分释放了 MoE 模型的潜力。
NVIDIA 与 SGLang 和 vLLM 展开合作,共同研发内核并进行性能优化
除了优化开源的 Dynamo 和 TensorRT-LLM 框架外,NVIDIA 还与 SGLang 和 vLLM 开源项目合作,共同开发针对 Blackwell 架构的新内核与性能优化。这些贡献通过 FlashInfer 提供,涵盖注意力机制的预填充与解码、通信、GEMM、MNNVL、MLA 以及 MoE 等关键环节,带来了增强功能或全新实现的内核支持。
在运行时层面,过去几个月中,这些大语言模型(LLM)框架得到了进一步优化。针对 SGLang,新增了对多 token 预测(MTP)以及 DeepSeek-R1 模型分解的支持。对于 vLLM,实现了重叠式异步调度,以降低主机端开销并提升吞吐量,同时还引入了自动图融合功能。此外,vLLM 还针对 gpt-oss、Llama 3.3 以及通用架构进行了性能和功能上的改进。更多关于 NVIDIA 与 vLLM 之间持续合作的细节也值得关注。
通过先进的硬件设计、软件优化以及开源社区的协作,NVIDIA 能够在主流开源推理框架中充分发挥 Blackwell 的性能与能效优势。
启动 NVIDIA Blackwell 之旅
SemiAnalysis 推出的 InferenceMAX v1 基准测试套件,提供了一个开源且持续更新的框架,用于评估推理性能。借助 InferenceMAX v1 的测试结果,NVIDIA Blackwell 系列展现出显著优势,相比上一代 Hopper 架构,B200 和 GB200 NVL72 的性能提升达 15 倍,为 AI 工厂带来了高达 15 倍的收入增长潜力。
这些成果验证了 NVIDIA Blackwell 架构的创新特性,包括 NVFP4 精度、NVLink 5 互连技术,以及 TensorRT-LLM 和 Dynamo 在多种工作负载和开源推理框架中的广泛应用。随着 NVIDIA 平台的持续演进,软件层面的不断优化进一步提升了整体价值。
了解详情并查看我们最新的 NVIDIA 性能数据。
如需探索或复现基准测试,请访问 SemiAnalysis InferenceMAX GitHub 仓库,获取完整的容器和配置文件。