大规模 AI 创新正在推动对加速计算基础设施的空前需求。训练万亿参数基础模型,采用分解架构支持这些模型,并以高吞吐量处理推理工作负载,这些挑战正将数据中心设计推向极限。为应对这一趋势,服务提供商不仅需要可扩展的基础设施,还需实现更高的安全性和更优的租户隔离。
本文将介绍在 NVIDIA BlueField-4 上运行的 NVIDIA BlueField Astra,这项突破性创新重新定义了服务提供商管理、保护和扩展 AI 基础设施的方式。
裸机计算在 AI 领域的兴起
随着加速计算需求的增长,业界正优先采用裸机计算,以充分发挥 GPU 加速的优势。与虚拟化环境不同,裸机配置需要严格的隔离机制和可信的控制点,以确保租户之间不会相互干扰资源。这一挑战的出现源于 AI 基础设施涵盖两个不同的网络领域:
- 南北(N-S): 连接用户与应用和 AI 集群的前端网络
- 东西向(E-W): 以高带宽和极低延迟连接 GPU 的后端 AI 计算网络
如今,CSP 已采用 NVIDIA BlueField DPU 来管理南北向流量,并在嵌入式 Arm 核心上运行其控制软件堆栈。这一架构使服务提供商能够高效地实现资源隔离、分配与工作负载保护。
在 E-W 域上,NVIDIA 以太网 SuperNIC 是专为满足 AI 工作负载的极端需求而设计的网卡,可提供大型 GPU 集群所需的性能、吞吐量与拥塞管理能力。
随着 AI 集群规模的扩大,CSP 正在寻求安全且一致的方法,将调配与控制能力扩展到 AI 计算架构中,以增强 SuperNIC 所提供的性能与可扩展性。
什么是 NVIDIA BlueField Astra?
正如在 CES 2026 上宣布的那样,NVIDIA Rubin 平台采用了在 BlueField-4 上运行的全新 BlueField 高级安全可信资源架构(Astra)。BlueField Astra 是一种突破性的系统级架构,融合了硬件与软件创新,并深度集成于 NVIDIA Vera Rubin NVL72 计算托盘之中。
通过 BlueField-4 DPU 与 NVIDIA ConnectX-9 SuperNICs 之间的专用连接,BlueField Astra 将可管理性、资源调配和策略执行延伸至 E-W 网络中。这是 DPU 首次实现对进出计算节点的全部网络 I/O 的控制。
借助 BlueField Astra,CSP 可扩展在 BlueField-4 DPU 上运行的可信软件堆栈,以在 AI 计算架构中安全地管理租户隔离与网络策略。这些策略通过带外 DPU 端口进行编程,并直接在 SuperNIC 硬件中执行,确保全系统控制的一致性。
BlueField Astra 的核心是一种全新的控制平面架构。不同于传统模式中依赖主机软件同时配置网卡和网络的方式,BlueField Astra 将 SuperNIC 控制平面与主机操作系统完全隔离。这确保了租户工作负载,即使在运行裸金属环境时,也无法篡改网络配置或获取网络配置的可见性。
如图 1 所示,BlueField Astra 在 BlueField-4 DPU 与 ConnectX-9 SuperNIC 之间建立了直接路径,构建出统一的控制架构。该架构能够提供:
- 专用连接:每个 NVIDIA ConnectX-9 SuperNIC 直接连接至 BlueField-4 DPU,使 DPU 能够在无需依赖主机 CPU 的情况下对 SuperNIC 进行编程、配置和监控。
- 带外控制:BlueField Astra 通过 BlueField 内嵌的 Arm 核心统一转发所有配置指令与网络策略。
- 南北向与东西向的统一控制:BlueField-4 将两个网络域整合至单一可信控制点。原本用于管理南北向网络以实现租户隔离和安全策略的 DPU,现将相同能力延伸至东西向 AI 计算架构中。
- 租户隔离:租户可使用 SuperNIC 进行 AI 数据传输,但无法访问或操控管理功能,相关管理功能在 DPU 上保持完全隔离。
- 安全模型一致性:通过将 NVIDIA DOCA 堆栈从主机迁移至 DPU,BlueField Astra 确保东西向网络继承与南北向流量一致的、经过验证的云对齐安全状态。
BlueField Astra 可实现控制、保持一致性并提升信心
BlueField Astra 通过在 N-S 和 E-W 域之间构建统一的控制平面,变革 AI 基础设施的管理方式。借助 BlueField-4 DPU 中的单点控制,服务提供商能够简化配置、统一执行策略并降低操作复杂性,所有这些均无需触及主机 CPU。
通过设计,BlueField Astra 能够提供更强的隔离性与安全性。SuperNIC 的控制平面与租户工作负载相隔离,并完全由 DPU 进行管理,确保租户无法绕过或更改策略。该模式可有效防止横向移动和配置漂移,同时使云服务提供商能够确信,裸金属 GPU 节点可在多租户环境中安全地提供服务。
BlueField Astra 还实现了操作一致性。服务提供商可将其在 N-S 前端已使用的相同基于 DOCA 的管理工具和工作流,无缝扩展至 E-W 计算架构中。通过将策略下推至 SuperNIC 硬件执行,实现细粒度且租户感知的配置,同时保持 NVIDIA SuperNIC 所具有的卓越性能优势。
最后,BlueField Astra 支持合规性与可审核性。由于策略和配置存储在 DPU 而非主机上,云服务提供商能够获得更清晰的审计追踪,并满足受监管行业对安全状态的要求。这确保了安全性并非事后附加,而是大规模地融入 AI 基础设施的操作系统之中。
将运营工作流拓展至裸机 AI 系统
BlueField Astra 基于 DOCA 软件平台构建,为在 BlueField-4 上部署和运行基础设施服务提供了统一的方式。通过将网络、安全、存储和管理功能锚定到 DPU 上,Astra 使得现有的 DOCA 微服务和操作工作流能够自然地扩展到裸机 AI 系统和 E-W 计算架构中。
借助 Astra,DOCA 微服务可直接在 BlueField-4 上运行,并通过由 DPU 管理的控制平面与 NVIDIA ConnectX-9 SuperNIC 实现接口连接。该架构在保持与现有 DOCA 部署兼容的同时,增强了多租户和裸金属 AI 环境所需的隔离性与控制能力,且不会对主机操作系统引入新的依赖项。
BlueField Astra 支持一组 DOCA 微服务,这些微服务共同构成 AI 系统的基础设施控制层:
- 网络
- N-S:DOCA 基于主机的网络(HBN)在 AI 集群的前端提供租户感知的配置、隔离与策略执行能力。
- E-W:DOCA 加速的 Open vSwitch(OVS)将软件定义网络延伸至 AI 计算架构,实现 GPU 节点间的受控互联,同时将架构控制面与租户工作负载相隔离。
- 安全性
- DOCA Argus 借助 DPU 实现基础设施级别的遥测与运行时可见性,支持在租户信任边界之外进行监控与策略执行。
- 存储
- DOCA SNAP 利用 DPU 卸载存储服务,构建独立于主机软件的安全、隔离数据路径。
- 管理
- DOCA DMS 提供设备发现、生命周期管理与安全调配功能,使云服务提供商(CSP)能够通过集中式、DPU 锚定的控制点管理 AI 节点与 SuperNIC。
通过整合这些 DOCA 微服务,BlueField Astra 能够在 N-S 和 E-W 域中保持一致的软件定义基础设施模型,同时保留大规模 AI 工作负载所需的性能特性。
确保 AI 基础设施的未来
随着 AI 工作负载扩展到新的高度,服务提供商需要在确保严格多租户安全性的前提下,提供接近裸机的性能。借助 BlueField Astra,NVIDIA 将可信控制从前端网络延伸至 AI 计算架构的核心。通过将 BlueField DPU 与 SuperNIC 融合于统一且隔离的架构之中,BlueField Astra 使云服务提供商能够更加自信地构建、部署和保护新一代 AI 基础设施。
如需了解 NVIDIA Vera Rubin NVL72 与 NVIDIA BlueField-4 如何推动 AI 基础设施的未来发展,请观看 NVIDIA 首席执行官黄仁勋在 CES 2026 上的现场演示。如需进一步了解 BlueField-4 的特性与功能,敬请查阅 BlueField-4 数据表。