数据中心/云端

借助 NVIDIA BlueField Astra 重新定义 NVIDIA Vera Rubin NVL72 的安全 AI 基础设施

大规模 AI 创新正在推动对加速计算基础设施的空前需求。训练万亿参数基础模型,采用分解架构支持这些模型,并以高吞吐量处理推理工作负载,这些挑战正将数据中心设计推向极限。为应对这一趋势,服务提供商不仅需要可扩展的基础设施,还需实现更高的安全性和更优的租户隔离。

本文将介绍在 NVIDIA BlueField-4 上运行的 NVIDIA BlueField Astra,这项突破性创新重新定义了服务提供商管理、保护和扩展 AI 基础设施的方式。

裸机计算在 AI 领域的兴起

随着加速计算需求的增长,业界正优先采用裸机计算,以充分发挥 GPU 加速的优势。与虚拟化环境不同,裸机配置需要严格的隔离机制和可信的控制点,以确保租户之间不会相互干扰资源。这一挑战的出现源于 AI 基础设施涵盖两个不同的网络领域:

  • 南北(N-S): 连接用户与应用和 AI 集群的前端网络
  • 东西向(E-W): 以高带宽和极低延迟连接 GPU 的后端 AI 计算网络

如今,CSP 已采用 NVIDIA BlueField DPU 来管理南北向流量,并在嵌入式 Arm 核心上运行其控制软件堆栈。这一架构使服务提供商能够高效地实现资源隔离、分配与工作负载保护。

在 E-W 域上,NVIDIA 以太网 SuperNIC 是专为满足 AI 工作负载的极端需求而设计的网卡,可提供大型 GPU 集群所需的性能、吞吐量与拥塞管理能力。

随着 AI 集群规模的扩大,CSP 正在寻求安全且一致的方法,将调配与控制能力扩展到 AI 计算架构中,以增强 SuperNIC 所提供的性能与可扩展性。

什么是 NVIDIA BlueField Astra? 

正如在 CES 2026 上宣布的那样,NVIDIA Rubin 平台采用了在 BlueField-4 上运行的全新 BlueField 高级安全可信资源架构(Astra)。BlueField Astra 是一种突破性的系统级架构,融合了硬件与软件创新,并深度集成于 NVIDIA Vera Rubin NVL72 计算托盘之中。

通过 BlueField-4 DPU 与 NVIDIA ConnectX-9 SuperNICs 之间的专用连接,BlueField Astra 将可管理性、资源调配和策略执行延伸至 E-W 网络中。这是 DPU 首次实现对进出计算节点的全部网络 I/O 的控制。

借助 BlueField Astra,CSP 可扩展在 BlueField-4 DPU 上运行的可信软件堆栈,以在 AI 计算架构中安全地管理租户隔离与网络策略。这些策略通过带外 DPU 端口进行编程,并直接在 SuperNIC 硬件中执行,确保全系统控制的一致性。

BlueField Astra 的核心是一种全新的控制平面架构。不同于传统模式中依赖主机软件同时配置网卡和网络的方式,BlueField Astra 将 SuperNIC 控制平面与主机操作系统完全隔离。这确保了租户工作负载,即使在运行裸金属环境时,也无法篡改网络配置或获取网络配置的可见性。

Network architecture diagram showcasing the VR NVL72 compute tray, supporting NVIDIA BlueField Astra management model. The directions North, South, West, and East are labeled. The BlueField-4 DPU is at the top, Vera CPUs in the middle, Rubin GPUs at the bottom, and ConnectX-9 SuperNICs on the left. Arrows and lines show the flow.
Network architecture diagram showcasing the VR NVL72 compute tray, supporting NVIDIA BlueField Astra management model. The directions North, South, West, and East are labeled. The BlueField-4 DPU is at the top, Vera CPUs in the middle, Rubin GPUs at the bottom, and ConnectX-9 SuperNICs on the left. Arrows and lines show the flow.
图 1。Vera Rubin NVL72 计算托盘,支持 BlueField Astra 管理架构

如图 1 所示,BlueField Astra 在 BlueField-4 DPU 与 ConnectX-9 SuperNIC 之间建立了直接路径,构建出统一的控制架构。该架构能够提供:

  • 专用连接:每个 NVIDIA ConnectX-9 SuperNIC 直接连接至 BlueField-4 DPU,使 DPU 能够在无需依赖主机 CPU 的情况下对 SuperNIC 进行编程、配置和监控。
  • 带外控制:BlueField Astra 通过 BlueField 内嵌的 Arm 核心统一转发所有配置指令与网络策略。
  • 南北向与东西向的统一控制:BlueField-4 将两个网络域整合至单一可信控制点。原本用于管理南北向网络以实现租户隔离和安全策略的 DPU,现将相同能力延伸至东西向 AI 计算架构中。
  • 租户隔离:租户可使用 SuperNIC 进行 AI 数据传输,但无法访问或操控管理功能,相关管理功能在 DPU 上保持完全隔离。
  • 安全模型一致性:通过将 NVIDIA DOCA 堆栈从主机迁移至 DPU,BlueField Astra 确保东西向网络继承与南北向流量一致的、经过验证的云对齐安全状态。

BlueField Astra 可实现控制、保持一致性并提升信心 

BlueField Astra 通过在 N-S 和 E-W 域之间构建统一的控制平面,变革 AI 基础设施的管理方式。借助 BlueField-4 DPU 中的单点控制,服务提供商能够简化配置、统一执行策略并降低操作复杂性,所有这些均无需触及主机 CPU。

通过设计,BlueField Astra 能够提供更强的隔离性与安全性。SuperNIC 的控制平面与租户工作负载相隔离,并完全由 DPU 进行管理,确保租户无法绕过或更改策略。该模式可有效防止横向移动和配置漂移,同时使云服务提供商能够确信,裸金属 GPU 节点可在多租户环境中安全地提供服务。

BlueField Astra 还实现了操作一致性。服务提供商可将其在 N-S 前端已使用的相同基于 DOCA 的管理工具和工作流,无缝扩展至 E-W 计算架构中。通过将策略下推至 SuperNIC 硬件执行,实现细粒度且租户感知的配置,同时保持 NVIDIA SuperNIC 所具有的卓越性能优势。

最后,BlueField Astra 支持合规性与可审核性。由于策略和配置存储在 DPU 而非主机上,云服务提供商能够获得更清晰的审计追踪,并满足受监管行业对安全状态的要求。这确保了安全性并非事后附加,而是大规模地融入 AI 基础设施的操作系统之中。

将运营工作流拓展至裸机 AI 系统

BlueField Astra 基于 DOCA 软件平台构建,为在 BlueField-4 上部署和运行基础设施服务提供了统一的方式。通过将网络、安全、存储和管理功能锚定到 DPU 上,Astra 使得现有的 DOCA 微服务和操作工作流能够自然地扩展到裸机 AI 系统和 E-W 计算架构中。

借助 Astra,DOCA 微服务可直接在 BlueField-4 上运行,并通过由 DPU 管理的控制平面与 NVIDIA ConnectX-9 SuperNIC 实现接口连接。该架构在保持与现有 DOCA 部署兼容的同时,增强了多租户和裸金属 AI 环境所需的隔离性与控制能力,且不会对主机操作系统引入新的依赖项。

BlueField Astra 支持一组 DOCA 微服务,这些微服务共同构成 AI 系统的基础设施控制层:

  • 网络
    • N-S:DOCA 基于主机的网络(HBN)在 AI 集群的前端提供租户感知的配置、隔离与策略执行能力。
    • E-W:DOCA 加速的 Open vSwitch(OVS)将软件定义网络延伸至 AI 计算架构,实现 GPU 节点间的受控互联,同时将架构控制面与租户工作负载相隔离。
  • 安全性
    • DOCA Argus 借助 DPU 实现基础设施级别的遥测与运行时可见性,支持在租户信任边界之外进行监控与策略执行。
  • 存储
    • DOCA SNAP 利用 DPU 卸载存储服务,构建独立于主机软件的安全、隔离数据路径。
  • 管理
    • DOCA DMS 提供设备发现、生命周期管理与安全调配功能,使云服务提供商(CSP)能够通过集中式、DPU 锚定的控制点管理 AI 节点与 SuperNIC。

通过整合这些 DOCA 微服务,BlueField Astra 能够在 N-S 和 E-W 域中保持一致的软件定义基础设施模型,同时保留大规模 AI 工作负载所需的性能特性。

确保 AI 基础设施的未来

随着 AI 工作负载扩展到新的高度,服务提供商需要在确保严格多租户安全性的前提下,提供接近裸机的性能。借助 BlueField Astra,NVIDIA 将可信控制从前端网络延伸至 AI 计算架构的核心。通过将 BlueField DPU 与 SuperNIC 融合于统一且隔离的架构之中,BlueField Astra 使云服务提供商能够更加自信地构建、部署和保护新一代 AI 基础设施。

如需了解 NVIDIA Vera Rubin NVL72 与 NVIDIA BlueField-4 如何推动 AI 基础设施的未来发展,请观看 NVIDIA 首席执行官黄仁勋在 CES 2026 上的现场演示。如需进一步了解 BlueField-4 的特性与功能,敬请查阅 BlueField-4 数据表

标签