AI 已进入工业阶段。
最初是用于执行离散 AI 模型训练和面向人类推理的系统,现已演变为全天候运行的 AI 工厂,持续将功率、芯片和数据大规模转化为智能。如今,这些工厂为生成商业计划、分析市场、开展深入研究以及基于海量知识进行推理的应用提供支持。
为了大规模提供这些功能,新一代 AI 工厂必须处理数十万个输入 tokens,以支持代理式推理、复杂工作流程和多模态流程所需的长上下文,同时在功耗、可靠性、安全性、部署速度和成本受限的条件下保持实时推理能力。
NVIDIA Rubin 平台专为这一新现实而打造。
极限协同设计是 Rubin 平台的基础。GPU、CPU、网络、安全、软件、供电和冷却均作为一个整体系统协同构建,而非各自独立优化。通过这种方式,Rubin 平台将整个数据中心(而非单个 GPU 服务器)视为计算单元。这一方法为高效、安全且可预测的大规模智能生成奠定了全新基础,确保性能与效率在实际生产部署中得以持续保持,而不仅仅体现在孤立组件的基准测试中。
此技术深度解析阐明了为何 AI 工厂需要一种全新的架构方法;NVIDIA Vera Rubin NVL72 如何以机架级架构实现高效运作;以及 Rubin 平台在芯片、软件与系统层面的协同,如何转化为持续的性能提升,并大规模降低每个 token 的成本。
博客的组织结构如下:
- 为什么 AI 工厂需要一个新平台: 推理驱动、始终在线的 AI 正在兴起,而当前定义规模的瓶颈在于功率、可靠性、安全性和部署速度。
- 了解 NVIDIA Rubin 平台: 围绕机架级平台的核心设计理念,以及实现持续智能生产的关键突破。
- 六个新芯片,一台 AI 超级计算机: 六芯片架构如何让 GPU、CPU、网络与基础设施协同运作,构成一个完整统一的系统。
- 从芯片到系统:从 NVIDIA Vera Rubin 超级芯片,到单机架部署,再到基于 NVIDIA DGX SuperPOD 构建的大规模 AI 工厂: 展现 Rubin 的可扩展路径。
- 软件与开发者体验: 支持机架级可编程性的软件堆栈,涵盖 NVIDIA CUDA、NVIDIA CUDA-X,以及训练与推理框架的全面优化。
- AI 工厂的大规模运营: 构建生产级能力的基础,涵盖运维管理、系统可靠性、安全保障、能效表现及生态系统的就绪程度。
- 大规模性能与效率提升: Rubin 如何将架构创新转化为实际效益,包括仅用四分之一的 GPU 完成训练任务,推理吞吐量提升 10 倍,以及每 token 成本下降 10 倍。
- 为何选择 Rubin 作为 AI 工厂平台: 深度协同设计如何在真实部署中实现可预测的性能表现、显著的经济效益和无缝的可扩展性。
1. 为什么 AI 工厂需要一个新平台
AI 工厂从根本上区别于传统数据中心。它们并非服务于人类驱动的间歇性请求,而是作为始终在线的智能生产系统,其性能取决于推理、上下文处理和数据移动的效率,而不仅仅是服务器的峰值计算能力。
现代 AI 工作负载日益依赖推理和代理式模型在超长上下文中执行多步骤推理。这类工作负载会对平台的每一层造成压力:包括提供的计算性能、GPU 与 GPU 之间的通信、互连延迟、内存带宽与容量、利用率以及供电能力。即使存在微小的效率损失,在数万亿 tokens 的规模下不断累积,也会严重影响成本效益、吞吐量和竞争力。
推动 AI 进步的三大扩展定律体现了这一动态:
- 预训练扩展:模型在此阶段学习其固有知识
- 后训练扩展:模型通过微调与增强学习如何进行思考
- 测试时扩展:模型在推理过程中通过生成更多 token 实现深入推理
随着这些扩展规律日益复杂,基础设施需求也在持续增长。NVIDIA Blackwell NVL72 采用首款机架级扩展架构,将 GPU、CPU 和互连技术从传统服务器边界的限制中解放出来,使机架升级为关键集成单元。这一转变在纵向扩展带宽、效率和可部署性方面实现了显著提升,为当今众多大型 AI 部署提供了有力支持。
随着 AI 工厂致力于提供更智能、更低的每 token 成本以及更大的业务影响,业界持续要求提升机架级性能,同时在严格的功率和散热限制内,保障数据中心级的确定性。
2. 了解 NVIDIA Rubin 平台
NVIDIA Rubin 平台专为推动大规模智能生产方式的变革而设计,通过在计算、网络、供电、冷却及系统架构中实现极致的协同设计,支持 AI 工厂规模的持续智能生产。
在平台层面,Rubin 实现了五项具有里程碑意义的代际突破:
这些功能相结合,使基于 Rubin 的系统能够成为一个可预测、安全且持续可用的智能生产单元,而非独立组件的简单集合。
Rubin 平台的旗舰产品是 Vera Rubin NVL72 机架级系统,其设计使整个机架在更大的 AI 工厂中作为一个协调一致的机器运行。NVL72 系统不仅针对峰值性能进行优化,更注重持续的智能生产:具备可预测的延迟、异构执行阶段的高利用率,以及将功率高效转化为可用智能的能力。
这种机架规模的视角为理解 Rubin 平台的芯片如何作为一个系统协同运行奠定了基础。
3. 六个新芯片,一台 AI 超级计算机
极致协同设计在芯片级表现尤为突出。
Rubin 平台由六个新芯片构建而成,每个芯片均针对 AI 工厂中的特定角色而设计,并从一开始就旨在作为统一机架级系统的一部分协同运行。Rubin 并未将计算、网络和基础设施视为松散的层级,而是将其直接集成至架构之中,确保通信、协调、安全性和效率在设计之初就被纳入核心考量。
这六款新芯片分别是:
- NVIDIA Vera CPU: 88 个 NVIDIA 定制设计的 OLYMPUS 核心,专为全面兼容 Arm 的新一代 AI 工厂优化。
- NVIDIA Rubin GPU: 搭载 HBM4 与全新的 NVIDIA Transformer 引擎,实现高性能 AI 计算。
- NVIDIA NVLink 6 交换机: 第六代纵向扩展网络,提供高达 3.6 TB/s 的 GPU 到 GPU 带宽。
- NVIDIA ConnectX-9: 面向端点的高吞吐量、低延迟网络接口,支持大规模横向扩展 AI 应用。
- NVIDIA BlueField-4 数据处理器 (DPU): 采用双裸片封装,集成以下组件:
- 基于 64 核 NVIDIA Grace CPU,用于基础设施卸载与安全处理。
- 内置 NVIDIA ConnectX-9 高速网络芯片,实现高效紧密的数据传输。
- NVIDIA Spectrum-6 以太网交换机: 采用光电一体封装技术,提升横向扩展连接的效率与可靠性。
这些芯片共同构成一个同步架构,其中 GPU 执行 Transformer 时代的工作负载,CPU 编排数据与控制流,纵向与横向扩展结构高效地移动 tokens 并维持状态,专用的基础设施处理器则运行并保护 AI 工厂本身。
在接下来的章节中,我们将从 Vera CPU 开始,逐一深入探讨每个构建模块。Vera CPU 负责协调数据移动、内存管理与控制流,以维持 AI 工厂规模下的 GPU 利用效率。
Vera CPU:专为 AI 工厂打造
随着 AI 工厂规模的扩大,仅凭 GPU 性能已不足以维持吞吐量。数千个 GPU 的高利用率,依赖于数据、内存与控制流在系统中的高效流转。Vera CPU 专为这一角色设计,作为高带宽、低延迟的数据移动引擎,保障 AI 工厂在大规模运行下的高效性。
与传统的通用主机不同,Vera 针对整机架的编排、数据移动和一致性内存访问进行了优化。Vera 可与作为主机 CPU 的 Rubin GPU 搭配使用,也可作为独立平台用于代理式处理,能够消除训练和推理环境中的 CPU 端瓶颈,从而提升持续利用率。
从 NVIDIA Grace 到 Vera – 拓展 AI 工厂的 CPU
NVIDIA Grace 奠定了 NVIDIA 在高带宽、高能效 CPU 设计方面的基础。Vera 在此基础上进一步提升,通过增加核心密度、显著增强显存带宽、扩展一致性支持以及实现全面的机密计算能力,全面优化以满足 AI 工厂工作负载的需求。
如下表所示,Vera 可提供高达 2.4 倍的显存带宽和高达 3 倍的显存容量,以支持数据密集型工作负载,同时将 NVLink-C2C 带宽提升一倍,确保在机架规模下实现 CPU 与 GPU 的协同操作。这些改进相结合,使 CPU 从辅助角色转变为 AI 工厂中新一代 GPU 高效运行的关键推动力。
| 特征 | Grace CPU | Vera CPU |
| 核心 | 72 个 Neoverse V2 核心 | 88 个 NVIDIA 自定义 Olympus 核心 |
| 线程 | 72 | 176 每核心空间多线程 |
| 二级缓存 | 1MB | 2MB |
| 统一的三级缓存 | 114MB | 162MB |
| 显存带宽 (BW) | 高达 512GB/s | 高达 1.2 TB/s |
| 显存容量 | 480GB LPDDR5X | 1.5 TB LPDDR5X |
| SIMD | 4x 128b SVE2 | 6x 128b SVE2 FP8 |
| NVLINK-C2C | 900GB/s | 1.8 TB/s |
| PCIe/CXL | Gen5 | Gen6/CXL 3.1 |
| 机密计算支持 | NA | 支持 |
采用空间多线程技术的 NVIDIA OLYMPUS 核心
Vera CPU 的核心由 88 个 NVIDIA 定制的 OLYMPUS 核心组成,专为实现卓越的单线程性能和高能效而设计,且完全兼容 Arm 架构。这些核心采用广泛而深入的微架构设计,具备更出色的分支预测、预取以及负载存储性能,并针对控制密集型和数据移动密集型工作负载进行了优化。
Vera 引入了空间多线程,这是一种新型多线程技术,通过物理分区而非时间切片来分配资源,每个核心运行两个硬件线程,从而在运行时实现性能与效率之间的平衡。该方法可提升吞吐量和虚拟 CPU 密度,同时保障可预测的性能和强隔离性,满足多租户 AI 工厂的关键需求。
可扩展一致性架构 – 确定性数据传输
第二代 NVIDIA 可扩展一致性结构 (SCF) 能将所有 88 个 OLYMPUS 核心连接至单个计算芯片上的共享三级缓存和内存子系统。通过避免小芯片边界,SCF 提供一致的延迟表现,并在负载下维持超过 90% 的峰值内存带宽,有效消除核心与内存控制器之间的瓶颈。
通过在 CPU 中实现确定性且高吞吐量的数据移动,SCF 能够确保编排和数据处理工作负载随核心数量的增加而线性扩展。这对于持续向 GPU 供给 AI 工厂规模的数据和指令至关重要。
内存带宽和一致性执行
Vera 将 SCF 与高达 1.5 TB 的 LPDDR5X 内存子系统相结合,在低功耗下提供高达 1.2 TB/s 的带宽。采用 LPDDR5X 的小型压缩附加内存模块(SOCAMM)可提升可维护性与故障隔离能力,从而满足 AI 工厂对高正常运行时间的需求。
第二代 NVLink-C2C 可在 Vera CPU 和 Rubin GPU 之间提供 1.8 TB/s 的一致性带宽,实现 CPU 与 GPU 显存间的统一地址空间。应用程序可将 LPDDR5X 与 HBM4 视为单一一致性内存池,从而降低数据移动开销,并支持 KV-cache 卸载与高效多模型执行等技术。
软件兼容性和安全操作
Vera 支持 Arm v9.2 架构,并与 Arm 软件生态系统实现无缝集成。主流的 Linux 发行版、AI 框架和编译排平台可不经修改直接运行,因此现有基础设施软件能够平滑扩展至基于 Vera 的系统。
本机支持机密计算,可在跨 CPU – GPU 边界及多路配置下实现安全执行,同时保障性能。
AI 工厂的数据引擎
Vera 是一款专用 CPU,旨在通过高效移动、处理和协调 AI 工厂规模的数据来充分释放 GPU 的潜力。Vera 并非被动主机,而是一个数据引擎,可加速控制密集型通信路径,涵盖数据暂存、调度、编排以及代理式工作流。同时,它在分析、云、存储和基础设施服务方面也展现出卓越的独立性能。
通过结合 Olympus CPU 核心、第二代 SCF、高带宽 LPDDR5X 显存以及一致性 NVLink-C2C 连接,Vera 能够确保 Rubin GPU 在训练、后训练和推理等各类工作负载中保持高效,即使在计算、显存和通信主导的阶段之间切换亦能稳定运行。
下一节中,我们将探讨 Rubin GPU,它作为执行引擎,能够将这种连贯一致的机架级基础架构转化为持续的训练与推理性能。
Rubin GPU:Transformer 时代 AI 的执行引擎
以 Vera CPU 作为编排和数据移动的基础,Rubin GPU 作为执行引擎,将机架级扩展能力转化为智能,专为在始终在线的 AI 工厂中实现持续训练、后训练与推理而设计。
现代 AI 工作负载(包括推理、多专家模型(MoE)、长上下文推理和强化学习)并不受峰值浮点运算(FLOPS)的限制,而是受限于在计算、内存和通信中持续维持高效执行的能力。Rubin GPU 专为实现这一目标而设计,可优化完整的执行路径,将功耗、带宽和内存高效转化为 tokens。
为了在这些条件下维持吞吐量,Rubin GPU 从三个紧密关联的维度改进其架构:计算密度、内存带宽和机架级通信。
在芯片层面,Rubin 在 NVIDIA 成熟的 GPU 架构基础上构建,同时对 Transformer 时代工作负载的各个关键子系统进行了扩展。该 GPU 集成了 224 个流多处理器 (SM),并配备了针对低精度 NVFP4 和 FP8 运算优化的第六代 Tensor Core。这些 Tensor Core 与增强的特殊功能单元 (SFU) 及执行流程紧密协同,旨在加速现代 AI 模型中常见的注意力机制、激活函数以及稀疏计算路径。
Rubin 基于 NVIDIA Blackwell 构建,延续了 NVIDIA 在软硬件协同设计方面的强大优势,可在训练、后训练和推理工作负载中提供更高的持续吞吐量,并降低每 token 的成本。改进的 NVFP4 支持提升了算术密度与效率,在保持模型准确性的同时,实现每瓦更有效的计算。通过将低精度执行深度集成至架构与软件堆栈,Rubin 将数值格式的演进直接转化为吞吐量、利用率以及 AI 工厂经济效益的实际提升。
在整个设备中,Rubin 在预训练、后训练和推理过程中实现了跨阶段功能的持续吞吐量提升。通过增强纵向扩展带宽、提升集合效率,并在通信密集型执行中维持更高的利用率,Rubin 提升了大规模训练的有效性能上限,同时在后训练和推理工作流中带来了显著增益。
持续计算和执行扩展
Rubin 可同时扩展计算能力、Transformer 引擎支持和执行均衡性,以避免因利用率高峰而限制现实世界的吞吐量。
下表重点介绍了自 Blackwell 架构以来核心计算特性的演进过程。
| 特征 | Blackwell | Rubin |
| 晶体管 (全芯片) | 208B | 336B |
| 计算芯片 | 2 | 2 |
| NVFP4 推理 (PFLOPS) | 10 | 50* |
| FP8 训练 (PFLOPS) | 5 | 17.5 |
| 软最大加速 ( SFU EX2 运算/时钟/SM 对于 FP32) | FP16) | 16 | 32 | 64 |
*Transformer 引擎计算
融合 AI 和科学计算
NVIDIA Rubin 平台的推出标志着科学计算迈入了一个新阶段,AI 与仿真之间的相互促进愈发紧密。在当今许多超级计算环境中,模拟常被视为端点,即执行一次生成单一结果的计算密集型任务。而高保真模拟正越来越多地被用作数据集生成引擎,为增强传统求解器的 AI 模型提供训练数据。
这些 AI 模型可充当智能预处理器、加速求解,或在迭代工作流中作为快速代理模型。尽管 AI 代理能够实现显著提速(有时会牺牲精度),但经典模拟在建立真值和最终验证方面依然至关重要。因此,需要将 AI 与科学计算中的高性能需求进行有效融合,形成统一的工作负载配置文件。
下表对比了 NVIDIA Hopper、Blackwell 和 Rubin 架构 GPU 在 FP32 和 FP64 精度下的计算性能。
| 特征 | Hopper GPU | Blackwell GPU | Rubin GPU |
| FP32 向量 (TFLOPS) | 67 | 80 | 130 |
| FP32 矩阵 (TFLOPS) | 495 | 227 | 400 |
| FP64 向量 (TFLOPS) | 34 | 40 | 33 |
| FP64 矩阵 (TFLOPS) | 67 | 150 | 200 |
* 峰值性能通过基于 Tensor Core 的仿真算法实现
上述矩阵性能得益于架构增强功能与软件技术的结合,相较于前几代产品,能够实现更高的有效吞吐量。这体现了 NVIDIA 持续专注于应用级性能,而非孤立的峰值指标。
在 AI 和科学计算领域,NVIDIA 的极致协同设计理念优先考虑实际工作负载的持续性能。对产品级仿真代码的分析表明,高持续 FP64 性能通常源于矩阵乘法内核。Hopper 采用专用硬件来加速这些路径。借助 Blackwell 及其后续架构 Rubin,NVIDIA 进一步优化了这一策略,通过低精度执行单元的多次运算实现高效的 FP64 矩阵吞吐能力,同时为融合工作负载保留了架构的灵活性。
与此同时,对于不受矩阵内核控制的科学应用,专用的 FP64 向量性能依然至关重要。在这些场景中,性能瓶颈往往在于数据在寄存器、缓存与高带宽内存(HBM)之间的传输,而非原始计算能力。因此,一个均衡的 GPU 设计应提供充足的 FP64 资源,以充分匹配可用的显存带宽,避免因计算资源分配过剩而导致利用率低下。
借助 Rubin 平台,实际应用性能将逐代持续提升。下图展示了在架构与系统级改进(而非原始 FP64 向量吞吐量增加)的推动下,典型的高性能计算 (HPC) 模拟代码所获得的预期性能增益。
Transformer 引擎
第三代 NVIDIA Transformer 引擎在先前创新的基础上,采用新型硬件加速自适应压缩技术,旨在提升 NVFP4 性能,同时保持精度。该功能可实现高达 50 PetaFLOPS 的 NVFP4 推理性能。
新的 Transformer 引擎与 Blackwell GPU 完全兼容,保留了现有的编程模型,可使先前优化的代码无缝迁移至 Rubin,同时自动获得更高的运算密度与执行效率。
内存和解码效率
随着上下文长度的增加以及推理交互性的不断提升,内存性能成为影响整体效率的关键因素。Rubin GPU 采用新一代高带宽显存 HBM4,与 HBM3e 相比,其接口宽度提升了一倍。
通过全新的内存控制器、与内存生态系统的深度协同设计,以及更紧密的计算与内存集成,Rubin GPU 的内存带宽几乎是 Blackwell 的三倍。
主要特性包括:
- 每个 GPU 高达 288 GB 的 HBM4
- 总带宽高达 22 TB/s
- 优化了解码与前端效率,可在负载下维持执行管线的稳定运行
这些进步使 Rubin GPU 能够在不牺牲并发性或利用率的前提下,持续支持长上下文推理、大批量 MoE 执行以及交互式推理。
纵向扩展互连 – 专为通信主导的 AI 架构而设计
Rubin 平台支持第六代 NVIDIA NVLink(NVLink 6),用于系统内 GPU 到 GPU 的通信;支持 NVIDIA NVLink-C2C(芯片到芯片),实现与 Vera CPU 的一致性 CPU-GPU 连接;同时还支持 PCIe Gen6,用于主机与设备的集成。
NVIDIA NVLink 6 可为每个 GPU 提供 3.6 TB/s 的双向 GPU 到 GPU 带宽,相较上一代产品,带宽实现翻倍。在 NVL72 系统中,该技术可支持 72 个 GPU 之间的多对多通信,并具备可预测的延迟,满足 MoE 路由、群集以及同步密集型推理路径的关键需求。
通过消除纵向扩展的瓶颈,Rubin GPU 能够确保通信不会因模型规模、专家数量和推理深度的增加而制约利用率。
下表比较了 Blackwell 与 Rubin 在 GPU 互连带宽方面的差异。
| 互连 | Blackwell | Rubin |
| NVLink (GPU-GPU) (GB/s,双向) | 1800 | 3,600 |
| NVLink-C2C (CPU-GPU) (GB/s,双向) | 900 | 1,800 |
| PCIe 接口 (GB/s,双向) | 256 (Gen 6) | 256 (Gen 6) |
专为 AI 工厂工作负载打造
NVIDIA Rubin GPU 针对定义现代 AI 工厂的工作负载进行了优化,在这些工作负载中,性能受峰值计算的影响较小,而更依赖于计算、内存和通信的持续高效性。这类工作负载包括以动态多对多通信为主的 MoE 模型、将推理与工具调用交替执行的代理式工作流,以及需要在较长时间内维持高利用率的长期训练与后训练工作流。
通过将自适应执行与大规模纵向扩展带宽相结合,Rubin 平台使 GPU 在所有执行阶段——包括计算密集型内核、内存密集型注意力机制以及通信受限的专家调度——均保持高效,而不仅限于优化密集矩阵运算。与前几代产品相比,这并非简单的升级。Rubin 平台重新平衡了 GPU 架构,实现大规模持续运行,并与 Vera CPU、NVLink 6 纵向扩展技术及平台软件协同工作,高效地将功率和芯片资源转化为整个机架可用的智能算力。
下一节中,我们将探讨 NVLink 6 交换技术,这是一种机架级架构,可让 72 个 GPU 作为一个紧密集成的单一系统运行。
NVLink 6 交换机:机架式纵向扩展结构
在 AI 工厂规模下,沟通是决定性能的关键。MoE 路由、集合运算、密集同步训练与推理均依赖于快速且可预测的多对多数据传输。当纵向扩展的带宽不足时,GPU 将处于闲置状态,导致每个 token 的成本随之上升。
NVLink 6 旨在消除这一瓶颈。作为 Rubin 平台的纵向扩展架构,它使 NVL72 系统中的 72 个 Rubin GPU 能够在通信密集型工作负载下如同单一紧密集成的加速器般运行,具备统一的延迟和持续的带宽。
每个 Rubin GPU 通过 3.6 TB/s 的双向带宽连接至 NVLink 6,与上一代产品相比,单个 GPU 的纵向扩展带宽提升了一倍。NVLink 6 交换机托盘在整机架内构成单一的多对多拓扑结构,使任意 GPU 均能以一致的延迟和带宽与其他 GPU 通信。
这种统一的拓扑结构消除了分层瓶颈以及与跳数相关的行为。从软件角度看,机架相当于一个大型加速器,简化了通信密集型模型的扩展。
MoE 和推理的多对多扩展
快速 MoE 训练和推理采用专家并行(EP),该并行机制依赖于对可能分布在不同 GPU 上的专家进行细粒度的动态 token 路由。这种模式会引发频繁的突发性通信,给分层或部分连接的网络带来沉重负担。
NVLink 6 在整个 NVL72 系统中以完整的多对多结构进行部署。专家级路由、同步和集合操作可跨全部 72 个 GPU 高效扩展,无需达到链路饱和,也不会引入不可预测的延迟。
与上一代产品相比,NVLink 6 可为大规模 MoE 推理提供高达 2 倍的多对多通信吞吐量。
用于集合运算的网络计算
NVLink 6 集成了 NVIDIA 可扩展分层聚合和归约协议(SHARP) 网络计算功能,能够在网络内部直接加速集合运算。通过在交换机内执行部分 all-reduce、reduce-scatter 和 all-gather 操作,可有效减少冗余的数据移动以及 GPU 同步开销。
每个 NVLink 6 交换机托架可提供 14.4 TFLOPS 的 FP8 网络计算能力,从而以更低的延迟和更高的效率执行集合密集型阶段。通过将集合归约操作卸载至网络中,SHARP 能够将大规模 AI 工作负载中的 all-reduce 通信流量减少达 50%,并使张量并行的执行时间缩短达 20%。
这种卸载可提升 GPU 的有效利用率,并随着集群规模的扩大增强扩展效率。具体效果取决于模型架构、并行策略、参与者数量以及 NCCL 配置。
AI 工厂规模的可操作性
纵向扩展网络必须具备可操作性,而不仅仅是高速性能。NVLink 6 交换机托盘融合了多项新的弹性与维护功能,包括支持热插拔的托盘设计、在机架未完全填充时仍能持续运行的能力,以及交换机离线时的动态流量重新路由机制。此外,它还支持在线软件更新,并可通过交换机接口流式传输细粒度的链路遥测数据,实现全面的实时监控。
结合使用软件定义路由、详细遥测和可维修的交换机托盘,可在不耗尽机架或中断活动工作负载的情况下,围绕故障或维护事件动态重新规划流量。这些功能使 NVLink 6 能够满足生产级 AI 工厂对零停机的预期。
通过将每个 GPU 的带宽翻倍,实现统一的多对多连接,并在网络内部直接加速集合操作,NVLink 6 使通信密集型工作负载能够以机架规模实现可预测的扩展。
下一节中,我们将介绍 ConnectX-9,它提供端点接口,通过将 GPU 连接到 Spectrum-X 以太网横向扩展网络,把这一性能延伸至机架之外。
ConnectX-9:突破 AI 横向扩展带宽的瓶颈
ConnectX-9 作为 Spectrum-X 以太网网络的智能端点,能够提供可预测的横向扩展性能,并随着 AI 工厂的发展实现流量隔离与安全运营。
在 Vera Rubin NVL72 机架级扩展架构中,每个计算托盘配备四块 ConnectX-9 SuperNIC 板,每块 Rubin GPU 可提供 1.6 Tb/s 的网络带宽。这一设计确保 GPU 能够高效参与专家调度、集合操作和同步过程,避免在网络边缘出现性能瓶颈。
针对突发 AI 流量的端点控制
MoE 推理和训练等 AI 工作负载会生成高度相关的流量模式。大量 GPU 常常同时尝试向网络注入数据,导致传统网卡难以应对的瞬时流量拥塞高峰。
ConnectX-9 通过在端点直接执行可编程的拥塞控制、流量调节和数据包调度来应对这一挑战。ConnectX-9 与 Spectrum-6 交换机协同工作,能够在拥塞发生之前就加以预防,而无需在队列形成之后再进行响应。
这种经过协调的端点到结构行为:
- 在多对多阶段实现平滑交通注入
- 缓解线头阻塞并减少受害流
- 在负载条件下维持高效带宽
多租户 AI 工厂的性能隔离
随着 AI 工厂整合工作负载,隔离的重要性与吞吐量相当。突发或配置错误的作业不得影响集群整体的性能。
ConnectX-9 在端点实现公平性与隔离,确保每个作业或租户都能获得可预测的网络行为,而不受其他作业或租户活动的影响。该功能对于共享式 AI 基础设施至关重要,因为在这些基础设施中,推理、训练和后训练工作负载通常在同一网络上并发运行。
通过将控制强制实施于端点,该平台避免了仅依赖交换机级机制,从而提升了可扩展性并降低了操作复杂性。
AI 基础设施的安全端点
ConnectX-9 在保护 AI 工厂网络方面同样发挥着核心作用。其集成的加密引擎支持对动态数据和静态数据进行高吞吐量加密,可在不牺牲性能的前提下实现安全操作。
主要安全功能包括:
- 用于 IP 安全 (IPsec) 和平台安全协议 (PSP) 的传输数据加密加速,保障 GPU 到 GPU 通信的安全
- 用于保护存储平台的静态数据加密加速
- 支持安全启动、固件身份验证与设备认证
这些功能使 AI 工具能够在共享、云端或受监管的环境中安全运行,同时保持接近原生的网络性能。
从端点控制到基础设施卸载
ConnectX-9 通过管理流量进入网络的方式,完善了 Spectrum-X 以太网横向扩展架构。通过在端点进行通信的规划、调度、隔离与保护,它能够确保 AI 工厂网络在实际工作负载下的行为具备可预测性。
由于 Spectrum-6 定义了网络级行为,而 ConnectX-9 实现了端点行为的控制,因此剩余的挑战在于如何在不消耗宝贵 CPU 和 GPU 资源的前提下,大规模地运营、保护和管理该基础设施。
这一责任由 BlueField-4 DPU 承担,后者为 AI 工厂的运营提供软件定义的基础设施层。在下一节中,我们将探讨 BlueField-4 如何为整个 Rubin 平台的网络、存储、安全和控制服务提供支持。
BlueField-4 DPU:驱动 AI 工厂的智能中枢
随着 AI 基础设施发展到数千个 GPU 和 PB 级数据,AI 工厂必须以现代云基础设施的严谨性、自动化和可控性来运行。挑战不仅在于连接 GPU,更在于编排能够高效扩展、保障安全并稳定运行 AI 工作负载的高度分布式系统。将云规模的原则应用于 AI 基础设施,需从一开始就将自动化、弹性和端到端安全性作为核心基础。
满足这些需求需要专用于基础架构层本身的专用处理器。NVIDIA BlueField-4 通过独立处理控制、安全、数据移动和编排任务,与 AI 计算分离,从而发挥关键作用。实际上,BlueField-4 是驱动 AI 工厂操作系统的处理器,专为连接、保护和管理大规模 AI 基础设施而设计。
在 Rubin 平台内,BlueField-4 作为软件定义的 AI 工厂控制平面运行,独立于主机 CPU 和 GPU 执行安全防护、资源隔离与操作确定性保障。通过将基础设施服务卸载并加速至专用处理层,BlueField-4 使 AI 工厂在扩展过程中能够保持性能稳定、隔离性强以及运营高效。
BlueField-4 将 64 核 Grace CPU 和高带宽 LPDDR5X 显存与 ConnectX-9 网络相集成,可提供高达 800 Gb/s 的超低延迟以太网或 InfiniBand 连接,并支持直接在 DPU 上运行基础设施服务。
下表重点介绍了 BlueField-4 相较于 BlueField-3 在带宽、计算和显存方面的主要进展。这些改进使 AI 工厂能够扩展 Pod 和服务,而基础设施不会成为瓶颈。
| 特征 | BlueField-3 | BlueField-4 |
| 带宽 | 400 Gb/s | 800 Gb/s |
| 计算 | 16 个 Arm A78 核心 | 64 个 Arm Neoverse V2 6x 计算性能 |
| 内存带宽 | 75 GB/s | 250 GB/s |
| 内存容量 | 32GB | 128GB |
| 云网络 | 32K 主机 | 128K 主机 |
| 数据传输加密 | 400 Gb/s | 800 Gb/s |
| NVMe 存储分解 | 4K 下 10M IOPS | 20M IOPS 和 4K 下 20M IOPS |
这种代际增长使 AI 工厂在扩展 Pod、服务和租户的同时,提升了基础设施的运营效率与网络安全。
AI 工厂规模的基础设施加速
在传统系统中,基础设施服务在主机 CPU 上运行,随着工作负载的扩展,会带来可变性、资源争用和安全风险。BlueField-4 通过将网络、存储、遥测和安全服务完全移出主机执行,实现了主机与基础设施的分离。这种分离能够提供:
- 独立于工作负载组合的确定性基础设施行为
- 提升 AI 执行过程中 GPU 与 CPU 的利用率
- 增强故障隔离能力与操作弹性
NVIDIA DOCA 为各代 BlueField 提供统一的软件基础,支持基础设施服务的复用,同时在不中断应用程序工作负载的前提下实现快速创新。
专为安全的多租户运营而构建
随着 AI 工厂日益广泛地采用裸金属和多租户部署模式,确保基础设施的严格控制与有效隔离变得尤为关键,尤其是在处理专有数据、受监管内容以及高价值模型的环境中。
作为 Rubin 平台的一部分,BlueField-4 引入了高级安全可信资源架构(ASTRA),这是一种系统级的信任架构,能够在计算托盘内建立明确的信任域。ASTRA 为 AI 基础设施的构建者提供了一个可信的控制点,支持在不牺牲性能的前提下,安全地进行大规模 AI 环境的调配、隔离与运行。
通过将控制平面、数据平面和管理平面与租户工作负载相隔离,BlueField ASTRA 能够实现安全的裸机操作、可靠的多租户隔离,以及独立于主机软件运行的可信基础设施控制。
NVIDIA 推理上下文内存存储 – 面向 AI 的原生存储基础设施
随着推理工作负载逐步向长上下文、多回合以及多智能体执行演进,推理状态的生命周期已逐渐超出单个 GPU 的执行窗口。KV 缓存与可重用的上下文需突破 GPU 显存的限制,并能在不同请求之间高效共享与访问。
Rubin 平台引入了由 BlueField-4 驱动的 NVIDIA 推理上下文内存存储。该推理上下文内存存储平台构建了一个 AI 原生基础设施层,支持对延迟敏感的共享推理上下文进行 Pod 级访问,从而实现长上下文和代理式工作负载中推理状态的高效复用。
它通过扩展 GPU 显存容量为上下文内存提供基础设施,实现节点间的高速共享,将每秒 tokens 的处理速度提升 5 倍,并提供比传统存储高 5 倍的能效。
将 AI 工厂作为系统运营
BlueField-4 将基础设施构建为 AI 工厂的先进架构层。通过在专用处理层上运行控制、安全、数据移动和编排平面,它使 AI 工厂能够在大规模环境下保持可预测性、安全性和效率。
在 Rubin 平台中,NVLink 定义了纵向扩展行为,ConnectX-9 和 Spectrum-X 以太网交换机负责横向扩展及横向扩展通信,而 BlueField-4 则负责运营 AI 工厂的运行。
Spectrum-6 以太网交换机:面向 AI 工厂的横向扩展与纵向扩展
AI 工厂还需扩展至单个 Vera Rubin NVL72 系统之外,通常需跨越地理上分散的数据中心。此时,性能不仅取决于带宽,更取决于网络在同步突发的 AI 流量下的行为是否具备可预测性。
为了支持横向扩展及AI工厂的大规模部署,Rubin平台推出了NVIDIA Spectrum-X以太网Photonics,这是一种基于光电一体封装的新一代Spectrum-X以太网交换技术,推动了NVIDIA专用于加速计算的以太网网络架构的发展。
Spectrum-6 专为流量高度同步、突发且不对称的 AI 工作负载而设计。Spectrum-6 采用 200G PAM4 SerDes 技术,将每个交换机芯片的带宽提升至 102.4 Tb/s,实现针对 AI 流量模式优化的高密度、大端口数量网络。
高有效带宽、细粒度遥测以及硬件辅助的性能隔离,可在大型多租户 AI 架构中实现确定性行为,同时保持完全基于标准并可与开放式网络软件互操作。
Spectrum-X 以太网网络
与现有以太网不同,Spectrum-X 以太网通过先进的拥塞控制、自适应路由和无损以太网技术,大规模提供可预测的低延迟与高带宽连接。这些特性能够在持续的 AI 负载下有效减少抖动、尾部延迟及丢包现象。
Spectrum-X 以太网基于 Spectrum-6,并与 Rubin 平台协同设计,可确保路由行为、拥塞控制和遥测真实反映 AI 通信模式,而非沿用传统企业网络的假设。这种协同设计使性能能够横向扩展以跟踪应用行为,而非局限于理论峰值吞吐量。
Spectrum-X 以太网还采用了 Spectrum-XGS 以太网跨扩展技术,为分布在不同地理位置的大型 AI 部署提供了距离感知的拥塞控制。端到端遥测与确定性路由实现了站点间的高效负载均衡,确保多站点 AI 工厂持续保持高利用率运行。
Spectrum-X 以太网光子学:重新定义 AI 规模化网络效率
Spectrum-X 以太网光子技术通过消除可插拔收发器和 DSP 重定时器,显著提升网络效率。相比采用传统可插拔收发器的网络架构,该技术结合集成硅光方案与外部激光阵列,有效减少组件数量和潜在故障点。Spectrum-X 以太网光子技术可提供:
- 网络能效提升约 5 倍
- 端到端延迟进一步降低
- 信号完整性显著改善
Spectrum-X 以太网可将光损耗从~22 dB 降低到~4 dB,使信号完整性提升高达 64 倍。通过高密度 MMC-12 布线,该技术实现了更长的正常运行时间、更简化的可维护性,并降低了大型训练和推理集群的总体拥有成本。
专为真实 AI 流量模式打造
现代 MoE 训练和推理引入了由随机专家 token 调度驱动的可变多对多通信阶段。这类工作负载会引发强烈的突发流量,给传统以太网网络带来巨大压力,导致丢包、拥塞崩溃以及作业完成时间延长。
Spectrum-X 以太网通过在交换机与端点之间协同实现拥塞控制与自适应路由,在网络层面有效解决了这一问题。因此,在实际 AI 负载下,完成专家调度和集合操作的作业速度显著提升。
在不重新构建网络的前提下优化网络
Spectrum-X 以太网通过交换机芯片、光学器件、SuperNIC 和系统软件的端到端协同设计,推动代际演进。这种设计无需重新构建基础架构,即可在带宽、信令和可扩展性方面实现协同提升,使客户能够随着性能需求的增长,对 AI 集群进行可预测的扩展。
| 特性 | Blackwell | Rubin | ||
| 关键组件 | Spectrum-X SN5000 系列 | ConnectX-8 SuperNIC | Spectrum-X SN6000 系列 | ConnectX-9 SuperNIC |
| Chip | Spectrum-4 | ConnectX-8 | Spectrum-6 | ConnectX-9 |
| 最大带宽 | 51.2 Tb/s 每个交换机芯片(64 x 800 Gb/s) | 800 Gb/s(2 x 400 G)每个 GPU | 102.4 Tb/s 每个交换机芯片(128 x 800 Gb/s) | 1600 Gb/s(2 x 800 Gb/s)每个 GPU |
| Des | 100G PAM4 | 100/200G PAM4 | 200G PAM4 | 200G PAM4 |
| Protocol | 以太网 | 以太网,Infini | 以太网 | 以太网,Infini |
| Connectivity | OSFP | OSFP, QSFP112 | OSFP | OSFP, QSFP112 |
4. 从芯片到系统:NVIDIA Vera Rubin 超级芯片到 DGX SuperPOD
AI 工厂的性能并非由单个芯片单独决定,而是取决于如何将这些芯片组合成可可靠部署、操作和扩展的系统。Rubin 平台的设计顺应了这一趋势,有意从硅级创新转向机架级系统,进而实现完整的 AI 工厂部署。
本节追踪这一进展,从作为基础计算构建块的 Vera Rubin 超级芯片开始,经由 NVL72 机架架构及其集成网络结构逐步扩展,最终延伸至作为 AI 工厂部署规模单元的 NVIDIA DGX SuperPOD。每一步的目标均保持一致:在系统向外扩展的同时,持续保留芯片层面所实现的效率、一致性和利用率优势。
NVIDIA Vera Rubin 超级芯片
Rubin 平台的核心是 NVIDIA Vera Rubin 超级芯片,这一基础计算构建块将 AI 执行、高带宽数据传输与编排能力紧密集成。每个超级芯片通过内存一致性的 NVLink-C2C 互连,将两个 Rubin GPU 与一个 Vera CPU 相结合,打破传统的 CPU-GPU 边界,形成统一的机架级执行域。
这种方法对于 NVIDIA 来说并非新举措。从 NVIDIA Grace Hopper 开始,延续至后续几代产品,CPU 与 GPU 的紧密集成始终是核心设计原则,旨在协同优化计算、内存和互连,以在实际的训练和推理工作负载下维持高利用率。
在 Vera Rubin 超级芯片中,CPU 作为数据引擎与 GPU 紧密协同执行。这种协同可实现跨训练、后训练和推理工作负载的低延迟协调、共享内存访问以及高效编排。Vera CPU 并非仅充当外部主机,而是直接参与执行、处理数据移动、调度、同步和执行流程,避免造成性能瓶颈。
通过将 GPU 计算与单主机处理主板上的高带宽 CPU 数据引擎相集成,该超级芯片可提升数据局部性、减少软件开销,并在异构执行阶段维持更高的利用率。它作为连接芯片级创新与机架级智能的架构桥梁。
Vera Rubin NVL72 计算托盘
计算托盘将 Vera Rubin 超级芯片转化为专为 AI 工厂规模设计的可部署、可维修单元。每个托盘将两个超级芯片(供电、冷却、网络和管理)集成到一个模块化、无线缆的组件中,针对密度、可靠性和操作便捷性进行了优化。
经过重新设计的内部液体歧管和通用快速接头可支持远高于前几代产品的流速,从而在持续的高功率工作负载下实现稳定的性能。模块化计算托盘采用独立的前后布局,可简化装配和维护流程。尽管在维护期间必须将计算托盘离线,但模块化无缆线设计可将维护时间显著缩短。
ConnectX-9 SuperNIC 提供高带宽横向扩展连接(每个 GPU 1.6 Tb/s),而 BlueField-4 DPU 可卸载网络、存储与安全服务,使 CPU 和 GPU 能持续专注于 AI 任务执行。
Vera Rubin NVL72 NVLink 交换机托盘
为了将多个计算托盘整合为一个统一的系统,Vera Rubin 引入了 NVLink 6 交换机托盘。
每个交换机托盘包含四个 NVLink 6 交换机芯片,可使每个 GPU 的纵向扩展带宽和网络计算能力提升一倍,从而直接在网络中加速集合运算。这一特性对 MoE 路由、同步密集型推理以及通信密集型训练阶段至关重要,因为在这些场景中,纵向扩展效率直接影响成本与延迟。
通过将纵向扩展网络集成为一级机架组件,NVLink 交换机托盘可确保性能随模型规模、批量大小及推理深度的持续增加而实现可预测的扩展。
用于横向扩展 AI 工厂的 Spectrum-X 以太网交换方案
NVLink 6 允许 72 个 GPU 在机架内协同工作,形成一个统一的加速器。Spectrum-X 以太网将这一能力扩展至机架之外,实现跨机柜和数据中心的可预测、高吞吐量横向扩展连接,有效消除传统以太网在同步 AI 流量时通常带来的性能波动。
AI 工厂通信模式与企业工作负载显著不同。MoE 调度、集合运算和同步重相位会产生突发、不对称且高度相关的流量,大规模加剧拥塞、尾部延迟和性能抖动。Spectrum-X 以太网针对这些特性,通过协同的拥塞控制、自适应路由和端到端遥测进行专门设计,可在高负载下持续保持高效带宽与稳定的性能表现。
在 Vera Rubin NVL72 平台中,Spectrum-X 由 Spectrum-6 交换机与计算节点中集成的 ConnectX-9 SuperNIC 端点共同实现。二者协同设计,构成一个紧密集成的横向扩展系统,使网络与端点能够协同调度流量、隔离工作负载并避免热点产生,从而在多作业、多租户的 AI 工厂中实现高效能的资源利用。
NVIDIA DGX SuperPOD:AI 工厂的部署单元
DGX SuperPOD 代表了 Rubin 平台部署规模实现的 blueprint。它由 8 个 DGX Vera Rubin NVL72 系统构建,定义了 AI 工厂在生产环境中融合经济性、可靠性和性能的基本单元。
与由离散组件组装的传统集群不同,DGX SuperPOD 被设计为一个完整的系统。从芯片和互连到编排与运维,每一层均经过协同设计与验证,能够实现持续的高利用率、可预测的延迟,并将电力高效地大规模转化为 tokens。
在每个 NVIDIA DGX Vera Rubin NVL72 系统中,72 个 Rubin GPU 通过 NVLink 6 实现互联,作为单一的相干加速器运行。Spectrum-X 以太网通过确定性、高吞吐量的横向扩展连接,将平台扩展至机架之外,支持将多个 DGX Vera Rubin NVL72 系统整合为 DGX SuperPOD。这些组件与 NVIDIA Mission Control 软件及认证存储相集成,构成经过验证、可用于生产的 AI 工厂基础单元,能够灵活扩展至数万个 GPU。
这种设计使 DGX SuperPOD 能够提供真正的 AI 工厂能力:支持训练、后训练和实时推理工作负载的持续运行,具备高可用性、可维护性以及稳定的性能表现。
5. 软件和开发者体验
Vera Rubin 还旨在加速创新,而无需迫使开发者重新构建软件。基于此,该平台在硬件代际之间保持完整的 CUDA 向后兼容性,确保现有模型、框架和工作流程无缝运行,同时自动获得计算、内存和互连方面代际提升带来的优势。
CUDA-X 库 – 性能基础
CUDA 平台包含编程模型、核心库和通信堆栈,可加速应用程序并提供机架级系统的完整分布式功能。开发者可以利用 NVIDIA 集合通信库(NCCL),NVIDIA 推理传输库(NIXL),以及 NVLink 感知集合,将 Rubin GPU 编程为单个设备,或作为单个 72-GPU NVLink 域的一部分。这种架构使模型能够跨机架扩展,无需自定义分区、拓扑感知的变通方案或手动编排。
在内核和库层,NVIDIA 为要求严苛的 AI 工作负载提供高度优化的基础模块。NVIDIA cuDNN、NVIDIA CUTLASS、FlashInfer,以及全新的 Transformer 引擎 等库,在注意力机制、激活函数和低精度计算等方面显著提升了执行效率。这些组件与 Rubin 架构的 Tensor Core、HBM4 内存子系统及 NVLink 6 互联技术深度协同,可在密集型、稀疏型和通信密集型工作负载中实现持续高效的性能表现。
这些库结合在一起,使开发者能够专注于模型行为,而非特定于硬件的调优,同时依然充分释放底层平台的性能潜力。
使用 NVIDIA NeMo 实现从研究到生产的规模化训练
更高级别的框架直接在 Rubin 平台上构建,能够显著提升开发者的工作效率和系统的可扩展性。PyTorch 和 JAX 框架具备原生 NVIDIA 加速支持,可实现跨机架的训练、后训练及推理工作流程扩展,同时仅需极少的代码修改。
NVIDIA 训练和自定义堆栈的核心是 NVIDIA NeMo 框架,该框架提供端到端的工作流,支持在 AI 工厂规模上构建、训练、优化和部署大型模型。NeMo 将数据管理、大规模分布式训练、对齐以及参数高效的自定义能力整合到一个面向生产的统一框架中。借助 NVIDIA NeMo Run,开发者能够在本地环境、SLURM 集群和基于 Kubernetes 的 AI 工厂之间一致地配置、启动和管理实验。
对于极端规模的训练,NeMo 与提供底层分布式训练引擎的 NVIDIA Megatron Core 紧密集成。Megatron Core 具备先进的并行策略、优化的数据加载器,并支持现代模型架构,涵盖密集型大语言模型、MoE、状态空间模型以及多模态网络。这一集成使 NeMo 能够在数千个 GPU 上扩展训练,同时将并行与通信的复杂性从用户操作中抽象出来。
NeMo 还支持高级后训练工作流程,包括强化学习和对齐技术,例如基于人类反馈的强化学习 (RLHF)、直接偏好优化 (DPO)、近端策略优化 (PPO) 以及监督式微调。这些功能使开发者能够在单一框架内实现从预训练到对齐与自定义的无缝过渡,无需重构整个工作流程。
为连接生态系统工作流,NVIDIA NeMo Megatron 桥接器支持 Hugging Face 与 Megatron 格式之间的双向检查点转换及验证。该工具使模型能够在社区工具、基于 NeMo 的训练、强化学习以及优化的推理部署之间可靠迁移,同时保障正确性与可再现性。
推理框架与优化 – 实现实时智能
Rubin 平台的架构旨在为现代推理工作负载带来显著优势,这些工作负载正日益由低延迟、高并发以及通信密集型的执行特征所定义。该平台与广泛使用的开源及 NVIDIA 推理框架(包括 SGLang、NVIDIA TensorRT-LLM、vLLM 和 NVIDIA Dynamo)相集成,在平台可用时提供软件支持,从而高效运行长上下文、MoE 以及代理式工作负载。
NVIDIA Model Optimizer 通过量化、剪枝、蒸馏和预测性解码提升推理性能,将架构创新直接转化为更低的延迟和更优的每 token 成本。在服务层,借助支持 NVLink 的通信、分解推理、LLM 感知路由、KV-cache 卸载至存储以及 Kubernetes 自动扩展,Dynamo 实现了可扩展的通信密集型工作负载服务(例如 MoE 推理和多智能体工作流)的开放。
开发者就绪的可编程机架级平台
NVIDIA 架构经过从头开始设计,可充分提升机架级平台软件性能和开发者可用性。通过将平台软件和开发者体验直接集成到架构中,Rubin 平台不仅功能强大,而且易于部署和编程。开发者能够专注于模型、智能体和服务,而非基础架构的复杂性,而运营商则可保持对 AI 工厂规模的性能、可靠性和效率的掌控。
6. 以 AI 工厂规模运营
大规模运营 AI 工厂需要的不仅仅是原始性能。它需要能够在现实世界的数据中心环境中持续、安全、高效且可预测运行的系统。Rubin 平台的设计不仅着眼于提供突破性的计算能力,更注重通过智能可靠性、全栈安全性、能源感知设计以及成熟的机架生态系统来持久维持这种能力。这些特性协同作用,确保基于 Rubin 平台构建的 AI 工厂能够快速扩展、稳定运行,并将电力、基础设施和芯片资源高效转化为工业规模的可用智能。
部署和运营
NVIDIA Mission Control 从配置 Vera Rubin NVL72 部署到与设施集成,再到管理集群和工作负载,NVIDIA Mission Control 可加速 AI 工厂运营的各个环节。借助智能集成软件,企业能够更精准地掌控冷却和电源事件,并重新定义基础设施的弹性能力。Mission Control 通过快速泄漏检测提升响应效率,释放 NVIDIA 最新效率技术的潜力,并借助自主恢复功能最大化 AI 工厂的生产力。
Mission Control 为企业提供经过验证的实施方案,简化并扩展 AI 工厂在整个集群生命周期中的部署与运营方式:
- 无缝工作负载编排:借助 NVIDIA Run:ai 功能,轻松简化工作负载管理,助力模型构建者高效开发。
- 功耗优化:提供开发者可选的控制选项,灵活平衡不同类型工作负载的功耗需求,并调节 GPU 性能表现。
- 自主恢复引擎:自动识别并隔离问题,实现无需人工干预的故障恢复,提升工作效率与基础设施的弹性能力。
- 可定制的控制面板:通过访问集群的关键遥测数据及可灵活配置的控制面板,实时追踪核心性能指标。
- 持续运行状况检查:在整个基础设施生命周期中,持续验证硬件状态与集群性能表现。
企业软件和生命周期支持
NVIDIA AI Enterprise 提供大规模运营 AI 工厂所需的企业级软件基础。它包含经过验证且受支持的软件堆栈,涵盖应用开发库、框架、微服务,以及用于 GPU 管理的基础设施软件,为生产级 AI 部署提供可预测的性能、安全性和稳定性。
对于代理式 AI 开发,NVIDIA AI Enterprise 提供了 NVIDIA NIM、NeMo 以及各类容器化库和微服务,通过标准化 API 实现高效的推理、模型训练与自定义。NIM 微服务支持 NVIDIA、合作伙伴及社区的 AI 模型,助力企业更快速地部署代理式 AI 功能。
此外,应用开发 SDK、框架和库能够将 Rubin 平台的架构特性转化为性能提升。CUDA、Transformer 引擎、cuDNN 及相关库作为经过验证的加速堆栈,可确保更高级别的框架和服务自动受益于硬件进步。
在基础设施管理方面,NVIDIA AI Enterprise 通过专用运算符以及经过验证的 GPU、网络和虚拟化驱动与 Kubernetes 集成。这些组件支持安全的多租户操作、工作负载编排和集群级别的可观测性,使运维人员能够在保障系统可靠性与合规性的同时,有效提升资源利用率。
NVIDIA AI Enterprise 是 NVIDIA AI 工厂的软件主干,提供长期支持、定期安全更新和跨硬件代的兼容性验证。它能够将机架级系统转变为可编程、安全且可操作的生产平台,适用于数据中心、云和边缘环境。
NVIDIA AI Enterprise 由广泛的合作伙伴生态系统提供支持,涵盖解决方案集成商、数据与企业平台、混合云及多云服务提供商,以及 AIOps 解决方案。它能够与现有的企业软件堆栈无缝集成,助力实现生产级 AI,并加快上市进程。
可靠性、可用性和可维护性
AI 工厂不再是仅能承担维护费用的批量系统。它们是始终在线的环境,持续运行训练、实时推理、检索与分析。Vera Rubin NVL72 专为实现这一目标而设计,引入了机架级 RAS 架构,旨在显著延长正常运行时间、提升质量、增加随时间推移实际完成的有用 AI 工作量,并确保长时间运行的 AI 工作负载能够可预测地完成。
在这种情况下,良好的输出反映了系统将开机时间有效转化为完成的训练步骤、处理的推理请求以及交付的 tokens 的能力,且不会因作业重启、检查点回滚、掉队或组件故障导致的性能下降而产生损失。当工作负载跨越数千个 GPU 并持续运行数天甚至数周时,即使是短暂的中断或局部故障,也会显著减少实际的有效输出。
Rubin 平台的弹性设计贯穿端到端,涵盖芯片、互连和物理系统架构。该设计实现了一种统一且智能的可靠性方法,使系统能够隔离故障、重新路由流量并持续执行工作负载,从而在机架规模上实现零计划停机,同时维持稳定的吞吐量和可预测的作业完成时间。
机架级弹性:从头开始设计
Vera Rubin NVL72 基于第三代 NVIDIA MGX 机架设计,将可靠性和可维护性作为核心架构要求。计算托盘、NVLink 交换机托盘以及电源和冷却基础设施均采用模块化设计,支持热插拔,专为现场更换而优化,无需排空机架或中断运行中的工作负载。
如下图所示,无线缆、无软管、无风扇的计算托盘架构消除了托盘内部众多手动的 PCIe、网络和管理连接,避免了传统电缆托盘设计中常见的装配与维护障碍。相比上一代托盘架构,这种机械简化使装配速度提升了 18 倍,显著缩短了现场维护时的服务时间,降低了部署周期及持续的运营开销。
由 80 多家 MGX 合作伙伴组成的成熟生态系统,可保障全球范围内的可制造性、服务就绪性以及可扩展的部署能力,使 AI 工厂在维持大规模一致可靠性的同时实现快速迭代升级。
跨互连的智能弹性
在系统层面,NVIDIA NVLink 智能弹性使机架在维护、部分节点下线或组件更换期间仍能保持完全运行。通过软件定义路由与智能故障转移,系统可动态绕开故障重新路由流量,确保正在进行的训练或推理任务不受影响。
当 AI 工厂扩展到数千个 GPU 时,这种能力尤为重要。系统不会将中断视为一次性事件,而是能够实时适应,即使在维修或更换组件的过程中,也能维持高利用率和可预测的性能。
芯片级运行状况监控,零机时间
该架构的核心是 Rubin GPU 的第二代可靠性、可用性和可扩展性引擎(RAS),可在不使 GPU 离线的情况下实现系统内的持续运行状况监控。健康检查在执行单元空闲的窗口期进行,从而在不影响运行中工作负载的前提下完成全面诊断。
RAS 引擎支持在执行期间进行现场 SRAM 修复和零机自我测试,可延长有效的平均故障间隔时间,并提升整体系统产量。该功能对长时间运行的训练作业和持续性推理服务尤为重要,因为在这些场景中,计划外的中断可能带来高昂成本或难以接受的影响。
Vera CPU 通过系统内 CPU 核心验证、缩短诊断时间,以及专为提升可维护性和故障隔离而设计的 SOCAMM LPDDR5X 显存,增强了 GPU 级弹性。
AI 工厂规模的预测性运营
这些硬件功能与 NVIDIA AI 驱动的预测管理相结合,后者可分析机架中数千个硬件和软件遥测信号,及早发现潜在问题,精确定位并主动处理。操作员可在不影响服务水平目标的前提下,重新平衡工作负载、调整检查点策略、激活备用容量或安排维护。
这些功能共同将 RAS 从被动流程转变为智能预测系统,从而显著减少停机时间、降低运营复杂性,并确保 AI 工作负载如期完成。
借助 Vera Rubin NVL72,可靠性不再成为规模的制约因素。从芯片到系统,该平台旨在让 AI 工厂以空前的规模持续、高效且可预测地运行。
全栈机密计算
随着 AI 工厂投入生产,安全要求从保护单个设备扩展至保障持续大规模运行的整个系统。现代 AI 工作负载通常在共享或云环境中处理专有训练数据、受监管内容和高价值模型,而这些环境无法对基础设施进行隐式信任。为满足这些要求,需在芯片、互连和系统软件层面实现全面的安全防护,同时避免引入性能损耗或增加操作复杂性。
Vera Rubin NVL72 以全栈机密计算为基础功能,将信任范围从单个组件扩展至整个机架。
第三代机密计算:机架级别的安全防护
如下图所示,Vera Rubin NVL72 将机密计算从单个设备扩展出去,构建覆盖 CPU、GPU 和互连产品的统一机架级可信执行环境。该设计使敏感的 AI 工作负载能够在共享或云环境中,以接近原生的性能大规模安全运行。
越来越多的 AI 工厂正在处理专有数据、受监管内容和任务关键型模型,这些数据甚至无法在其运行的基础设施上公开。Vera Rubin NVL72 通过在 CPU 到 GPU、GPU 到 GPU 以及设备 I/O 路径上实现端到端加密,满足了这一需求,使企业能够在不牺牲吞吐量或延迟的情况下,部署安全的训练、推理、检索和分析流程。
从设备级安全性到机架级信任
NVIDIA 在多代产品中始终具备先进的 GPU 安全性。Hopper 架构为 GPU 引入了高性能的机密计算能力。Blackwell 架构进一步扩展了这些功能,突破了传统安全与性能之间的权衡。Vera Rubin NVL72 则通过将 CPU 与 GPU 的安全性整合至整个机架的单一一致性信任域,完成了这一演进过程。
这种机架级方法可确保专有模型、训练数据、嵌入以及推理提示不仅受到其他租户的隔离保护,还能免受底层云提供商基础设施本身的潜在威胁。
加密认证与可验证的合规性
Vera Rubin NVL72 与 NVIDIA 远程认证服务 (NRAS) 集成,可提供系统完整性的加密验证。组织能够核验 CPU、GPU、网卡、固件、驱动程序以及正在运行的工作负载是否与 NVIDIA 提供的已知良好参考值一致,从而实现机架级别的零信任架构。
该平台支持通过 NVIDIA 认证云服务进行按需认证,同时支持需要缓存结果或完全气隙操作的部署模式。这种灵活性使企业能够在保持运营效率的同时,满足严格的监管、合规性和数据主权要求。
整个机架的统一安全性
Vera Rubin NVL72 融合行业标准与 NVIDIA 技术,构建了统一的安全域,涵盖:
- 用于设备级信任的 TEE 设备接口安全协议 (TDISP)
- PCIe 完整性与数据加密 (IDE),实现安全的 I/O
- NVLink-C2C 加密,保障 CPU 到 GPU 及 CPU 到 CPU 的通信安全
- NVLink 加密支持大规模 GPU 到 GPU 的安全数据传输
这些功能共同实现了一个完全加密、连贯一致的可信执行环境,旨在支持全球规模最大的 AI 模型和要求严苛的企业工作负载。从用户的设备到云规模的 AI 工厂,Vera Rubin NVL72 可提供全栈机密计算,保护各类数据,即便是高度敏感的工作负载,亦能确保安全无虞。
Tokens 所需能源:散热和功率创新
AI 工厂可以消耗数百兆瓦的电力。然而,当功率到达执行工作的 GPU 时,约有 30% 的电力会因功率转换、配电和冷却等环节而损失。这些能量被用于支持计算但不直接生成 tokens(AI 输出的基本单元)的系统,被称为“寄生虫能源”,大规模地浪费了数十亿美元的潜在收入。
浪费的每一瓦电力,都是本可用于生成 tokens 的宝贵资源。随着 AI 成为知识创造的核心引擎,提升能效将直接转化为更高的吞吐量、更低的每 token 成本,以及更优的可持续性。
减少寄生虫能量意味着为 GPU(即生成 tokens 的引擎)提供更多的可用功率。Rubin 平台经过精心设计,通过更简化的电源路径、更高效的冷却系统,以及专为持续运行的 AI 工厂打造的系统级编排,有效降低这些隐藏成本。
传统数据中心高度依赖风冷技术,而风冷技术需消耗大量能源来移动和调节空气。Vera Rubin NVL72 系统则采用暖水、单相直接液冷(DLC)技术,并以 45 摄氏度的供水温度运行。液冷系统比空气更高效地捕获热量,可实现更高的工作温度,降低风扇和冷却器的能耗,同时以较少的用水量支持干冷运行。
Vera Rubin 以 Blackwell 的液冷设计为基础,在相同的 CDU 压力头下,液体流速几乎提升一倍,从而显著增强冷却效率。这有助于在持续的高负载运行中实现快速散热,有效避免热节流现象,维持系统性能的稳定性。冷却能耗的降低,意味着更多能源可被用于计算任务,进而提升整个 AI 工厂的能源利用效率与可持续性。
机架级电源平滑与现场级能源存储
AI 工作负载本质上是动态的。大规模训练引入了具有兆瓦级功率爬升的同步多对多通信阶段,而推理则会产生急剧的需求峰值。
如果不采取缓解措施,这些波动可能会给供电网络带来压力,导致违反电网限制,或迫使运营商过度建设基础设施或限制 GPU 使用,这两种情况都会造成能源浪费并限制可部署的计算能力。
Rubin AI 工厂通过多层次的方法应对这一挑战。
在机架层面,Vera Rubin NVL72 通过功率平滑技术来平衡功率波动,并集成了比 Blackwell Ultra 多 6 倍的局部能量缓冲,能够在源端直接吸收快速的功率瞬变。下图展示了运行过程中机架级功率平滑的效果:原本同步 AI 工作负载产生的功率波动被重塑为受控的斜坡波形,受限于稳定的功率上限与下限,同时在源头通过局部能量缓冲吸收高频瞬变。最终实现更平稳、更可预测的功耗管理,使 GPU 运行更好地契合数据中心及电网的承载限制。
下图将这种行为分解为三种互补机制,使其成为可能。受控坡道、强制限制和本地能源存储共同构成一个协调运行的系统,有效降低峰值需求、避免斜坡速率违规,并在不牺牲性能的前提下实现供电稳定。通过这些机制,AI 工厂能够依据持续功耗(而非极端峰值)进行规划,从而直接提升每兆瓦可部署的计算量。
在现场层面,电池能量存储系统(BESS)可提供快速响应能力,有效应对电网事件,并在不中断工作负载的情况下维持系统稳定。
AI 基础设施电源管理采用 NVIDIA 域电源服务 (DPS) 实现域级控制,并为每个作业启用 NVIDIA 工作负载电源配置解决方案 (WPPS),以优化 SLURM 和 NVIDIA Mission Control 等调度程序的每瓦性能。Mission Control 提供集群级遥测、协调的功耗感知策略,并与设施系统集成(包括能源优化功率配置文件和建筑物管理系统接口),支持高效的大规模运营。底层 GPU 遥测、功耗上限及运行状态控制则通过 NVIDIA 系统管理接口 (SMI) 和 NVIDIA 数据中心GPU 管理 (DCGM) API 进行管理。
通过降低峰值与平均值的功率比,Vera Rubin NVL72 使运营商能够在每兆瓦的可用电网容量中部署更多的 GPU,并基于持续功率而非极端峰值进行规划。这提升了利用率,降低了基础设施开销,并直接增加了每单位能源产生的 tokens。
为可持续的 AI 工厂规模提供电力优化与电网感知能力
AI 工厂并非孤立运行。它们与电网紧密耦合,受到斜率、峰值需求和运营稳定性等方面的限制。大规模手动管理这些约束极不现实,可能导致强制节流或停机。NVIDIA 正在弗吉尼亚州 Manassas 建造一个 Vera Rubin NVL72 AI 工厂研究中心,旨在优化并验证从 100 兆瓦到吉瓦级 AI 工厂的参考设计。该参考设计将 Vera Rubin NVL72 机架设计与电源和冷却基础设施进行大规模集成,并通过 API 实现电网电源控制与 AI 工厂遥测及控制系统的连接。
Vera Rubin NVL72 AI 工厂集成了 NVIDIA Omniverse DSX 参考设计,用于实现软件定义的电源控制。DSX Flex 可将电力信号转化为可操作的集群级功率事件,DSX Boost 则确保符合斜坡速率要求,并动态编排整个工厂的工作负载功率预算。
这些功能相结合,使 AI 工厂能够在满足电网要求的同时,保持工作负载的高利用率运行。通过协调跨机架、节点和作业的功率行为,DSX 使 Vera Rubin NVL72 AI 工厂在相同功率范围内提供高达 30% 的 GPU 容量,从而直接提升 token 输出与收入潜力。
由成熟生态系统支持的无缝过渡
Vera Rubin NVL72 基于第三代 NVIDIA MGX 机架架构构建,可在维持相同物理机架占用空间的前提下,提升性能、可靠性和可维护性。这种延续性是经过精心设计的。NVIDIA 通过优化平台,避免强制实施颠覆性的基础设施变更,在确保部署模式可预测且高效的同时,实现了 AI 能力的指数级增长。
随着 Vera Rubin NVL72 为每个机架提供高达 3.6 exaFLOPS 的 AI 推理计算能力,挑战不再仅仅是性能,而是实现高性能大规模部署的速度。MGX 设计确保电力、冷却、机械集成和服务工作流程均已通过验证,使合作伙伴和运营商能够专注于缩短投产时间,而非重新设计基础设施。
这种一致性直接转化为更快的部署速度。Vera Rubin 得到由 80 多家 MGX 合作伙伴组成的成熟生态系统支持,这些合作伙伴涵盖系统制造商、集成商和数据中心解决方案提供商,其中许多企业已开始逐步扩大该平台的规模。凭借在前几代产品中积累的宝贵运营经验,这些合作伙伴有效降低了风险,推动了全球范围的加速落地。
对于数据中心运营商而言,这意味着能够以尽可能低的摩擦平稳过渡到 Vera Rubin。现有设施可采用新一代代理式 AI 基础设施,而无需重新设计布局、重新培训服务团队或重新验证基本机架设计。由此实现更快的部署、可预测的运营,以及随着需求增长迅速扩展 AI 工厂的能力。
Vera Rubin 成熟的生态系统可确保平台创新不会牺牲部署速度,使企业和云提供商能够以空前的速度将创新转化为生产。
运营符合性能的地方
这些功能共同定义了在 AI 工厂规模下运营的内涵。Vera Rubin NVL72 融合了零机可靠性、全栈安全性、能源感知系统设计以及成熟的机架生态系统,确保性能提升能够转化为生产环境中持续稳定的输出。通过消除运营、功耗与部署中的瓶颈,该平台使 AI 工厂得以聚焦于关键目标:为每瓦电力、每个机架及每座数据中心释放更多智能。在此基础上,下一节将探讨 Vera Rubin 如何将这些系统级优势大规模转化为可衡量的性能提升。
7. 大规模性能和效率
要了解 Vera Rubin NVL72 对性能的影响,一种有效的方法是通过模型演进的视角来分析。当前,行业正同时推动两个方向的发展:一是极端规模的训练(以参数量达十万亿级的混合专家(MoE)模型为例),二是满足推理智能体与复杂工作流程所需的低延迟推理能力。在如此庞大的规模下,挑战已不再局限于单一的峰值吞吐量,而是整个平台能否高效地将底层基础设施转化为持续稳定的模型运行能力。
随着行业从 Hopper 发展到 Blackwell,再到 Rubin,性能提升 increasingly 源自架构效率,而非单纯的规模扩展。Vera Rubin NVL72 在两端拓展了性能前沿,既提供了训练大型 MoE 模型所需的架构密度,避免了难以管理的集群扩张,又实现了实时、高吞吐推理所依赖的持续执行效率。
通过极端协同设计解锁 10T MoE 时代
训练新一代前沿模型需要极致的协同设计。随着参数规模持续增长,行业正快速逼近10T MoE架构在操作上可行的临界点。这类模型虽具备强大的容量和更高效的推理能力,但在训练过程中,由于动态专家路由机制及频繁的多对多通信,会产生巨大的通信开销。
Rubin 平台旨在通过计算、内存与网络的紧密协同设计来吸收此类开销。更高的机架计算密度和更高效的互连方式可降低同步与专家通信的成本,从而实现训练效率的扩展,而非随着集群规模的增加而下降。
下图说明了采用固定训练目标进行协同设计的影响。为了在一个月内完成 100 万亿 tokens 上对 10T MoE 模型的训练,Vera Rubin NVL72 所需的 GPU 数量约为 Blackwell NVL72 的四分之一。Rubin 并未通过扩展至更大规模的集群来满足紧迫的时间要求,而是将高效的训练能力集中于更少的 GPU 上。
所需 GPU 数量的减少标志着大规模训练的结构转变。Vera Rubin NVL72 能更充分地降低集群无序扩展和通信开销,从而消除过去制约 MoE 可扩展性的复杂性。架构效率(而非原始 GPU 规模)成为推动 10T 级模型大规模实用的关键因素。
大规模实时推理
向多智能体 AI 系统的转变从根本上改变了推理行为。如今,智能体不再依赖短暂的无状态请求,而是依托持久的上下文持续运行,并在各智能体之间不断交换状态。每一次请求都可能包含数万个 tokens,涵盖对话历史、工具定义、结构化 API 模式、检索到的 RAG 上下文,以及工作流中其他代理的中间输出。在如此持续的上下文负载下维持响应速度,不仅需要强大的峰值计算能力,更依赖于计算、内存与通信之间持续的高吞吐量协同。
与此同时,现代“思维”模型(例如 Moonshot AI 的 Kimi-K2-Thinking)引入了额外的执行阶段。在生成最终响应之前,这些模型会产出较长的内部推理序列,从而显著增加输出 token 数量。对于需要 8000 个输出 tokens 的工作负载而言,按照传统的用户推理速率(每位用户约每秒 50 tokens),响应时间将长达数分钟。从整体来看,这种延迟在并发用户间会叠加累积,进而影响用户体验与系统效率。
Vera Rubin NVL72 旨在消除此瓶颈。通过在更高交互性水平下保持高吞吐量,该平台可在不牺牲响应速度的前提下,实现推理密集型任务的高效处理。下图展示了这一代际跃迁。在 Kimi-K2-Thinking 工作负载中,Vera Rubin NVL72 能够在用户交互性相近的情况下,将每兆瓦 token 的工厂吞吐量提升至 NVIDIA Blackwell GB200 NVL72 系统的 10 倍。尽管先前的架构在每位用户 TPS 增加时会出现吞吐量显著下降的现象,Vera Rubin NVL72 却能在流畅交互式推理所需的操作范围内持续保持高效。这使得百亿参数级别的大型 MoE 模型能够为实时代理类工作负载提供服务,而无需承受“等待思考”的延迟惩罚。
除了吞吐量之外,Vera Rubin NVL72 从根本上改变了推理的经济效益。下图展示了相同工作负载下每百万 tokens 的输出延迟函数。对于长上下文、以推理为主的工作负载,与 Blackwell NVL72 相比,Vera Rubin NVL72 可将每百万 tokens 的成本降低 10 倍。
这种优势在交互式智能体所需的服务级别上尤为显著,在这些级别上,先前的平台可能会遭遇效率瓶颈,导致成本急剧上升,响应能力随之逐步下降。Vera Rubin 在该领域保持了成本效益,将长链推理从高级功能转变为可扩展的生产就绪型服务。
重新定义帕累托边境
这些结果共同重新定义了 AI 推理在响应速度与效率之间的传统权衡。以往的平台迫使运营商在低延迟和合理成本之间进行取舍,而 Vera Rubin NVL72 却能同时兼顾两者。这使得大背景、推理密集型模型得以交互式地大规模运行,将高智能推理从高级功能转变为生产环境中的标准服务。
8. 为什么 Rubin 是 AI 工厂平台
AI 基础设施已迈入转折点。随着模型向长上下文推理、代理执行和持续后训练演进,性能不再由单一组件决定,而是取决于整个系统将电力、芯片与数据传输高效转化为可用智能的能力。
Rubin 专为实现这一目标而打造。
Rubin 平台并未针对独立芯片进行优化,而是将整个数据中心视为一个计算单元。通过在 GPU、CPU、纵向扩展与横向扩展网络、基础设施卸载、供电、冷却、安全及系统软件等层面的深度协同设计,Vera Rubin 使 AI 工厂能够以统一、可预测且持续可用的方式运行。
在执行层,Rubin GPU 为计算密集型、内存密集型和通信密集型的工作负载提供持续稳定的吞吐能力。Vera CPU 作为高带宽数据引擎,能够高效地将数据流式传输至 GPU,同时在系统级编排中实现加速,避免成为性能瓶颈。NVLink 6 将整个机架整合为一个连贯统一的系统,确保所有 GPU 上的性能表现可预测。BlueField-4 通过管理 AI 工厂的运行,卸载基础设施服务,并在大规模环境中实现安全、隔离与控制,进一步完善了整体架构。随后,Spectrum-X 以太网与 ConnectX-9 将这种确定性行为延伸至机架之外,支持多机架部署下的高效、可扩展的 AI 工厂运作。
重要的是,这些功能并非理论上的设想,而是通过 DGX SuperPOD 作为经过验证的生产就绪型平台加以实现,由 NVIDIA Mission Control、企业软件以及成熟的 MGX 生态系统提供支持。这种设计使组织能够更快速地部署安全的 AI 工厂,更可靠地运行工厂,并随着需求增长更高效地扩展工厂。
其结果是 AI 经济学发生了根本性转变。通过显著提高利用率、减少操作摩擦并最大限度降低电力浪费,Rubin 平台降低了每 token 的成本,同时提升了每瓦 tokens 和每机架 tokens 的产出。过去需要持续扩展的脆弱集群,如今能够实现更高的密度、更强的可靠性以及更稳定的性能表现。
Rubin 平台不仅仅是新一代加速计算,更推动 AI 工厂从实验迈向工业规模的智能生产。
9. 了解详情
在 nvidia.com 上探索 Rubin 平台、Vera CPU、Vera Rubin NVL72、NVIDIA NVLink 6 交换机、NVIDIA ConnectX-9 SuperNIC、NVIDIA BlueField-4 DPU、NVIDIA Spectrum-6 以太网交换机、DGX SuperPOD 配置 及其他部署选项,并查阅 CES 相关新闻稿。
致谢
感谢 Alex Sandu、Amr Elmeleegy、Ashraf Eassa、Brian Sparks、Casey Dugas、Chris Hoge、Chris Porter、Dave Salvator、Eduardo Alvarez、Erik Pounds、Farshad Ghodsian、Fred 哦、Gilad Shainer、Harry Petty、Ian Buck、Itay Ozery、Ivan Goldwasser、Jamie Li、Jesse Clayton、Joe DeLaere、Jonah Alben、Kirthi Devleek、Laura Martinez、Nate Dwarika、Praveen Menon、Rohil Bhargava、Ronil Prasad、Santosh Bhavan