数据中心/云端

NVIDIA BlueField DPU:助力 AI 云兼顾效率与可信

随着大模型和高性能 AI 业务全面上云,用户的核心诉求正在从“有没有算力”转向“算力是否可控、是否隔离可信、能否高效调度”。在云端做 AI 训练与推理,一方面需要极致的 I/O 性能和多 GPU 扩展能力,另一方面又必须满足硬件级安全和全链路数据保护诉求。传统以 CPU 为中心的云基础设施,无法提供优化的性能、弹性和安全性,这会增加 Token 的成本。

NVIDIA BlueField-3 DPU 正是在这样的背景下成为下一代 AI 云的重要基础设施底座。通过硬件卸载、内生安全能力以及开放的虚拟化架构,NVIDIA BlueField-3 为实现在性能、弹性和安全性之间提供了一个“无需妥协”的途径。

破解虚拟化的长期矛盾

在虚拟化网络和存储领域,性能与弹性长期存在矛盾:

  • 基于 VFIO(Virtual Function I/O)的直通方案可提供接近裸金属的性能,但牺牲了热迁移等操作灵活性;
  • 纯软件虚拟化方案具备很强的云原生弹性,却通常会带来显著的虚机开销和性能损失。

NVIDIA BlueField 通过将数据面的处理从主机 CPU 转移到数据处理器 DPU 来解决这一问题。它基于硬件级 vDPA(virtio data path accelerator)架构,将数据卸载至 BlueField,由专用硬件完成转发和加速,而控制面仍然保留在软件端侧,用于可观测、可管控和虚拟化管理。

这种架构带来几方面直接收益:

  • 为虚拟机提供接近裸金属的吞吐与时延表现,在高带宽、高 QPS 的 I/O 密集场景中尤为明显;
  • 支持热迁移、弹性调度等云原生能力,避免传统直通方案对运营侧造成的约束;
  • 配合 page-per-vq 和 host-notifier 等特性,vDPA 架构可显著降低 VM Exit。在大规模虚拟机场景下,可以把 Live Migration 的网络停顿缩短 90%。

对云平台运维团队而言,这种架构意味着不必再在“极致性能”和“云原生弹性”之间做二选一。

全栈硬件卸载:把 CPU 从 I/O 中释放

在资源交付层面,NVIDIA BlueField 提供全栈硬件卸载:尽可能多地把 I/O 相关开销迁移到 DPU 上,由 BlueField 全权负责。

借助 BlueField,云平台可以将以下核心能力下沉到 DPU:

  • 虚拟交换与 OVS 加速,减少数据包在主机上的内核路径;
  • 存储协议卸载和加速,降低块存储和分布式存储访问带来的 CPU 占用;
  • 网络加密、流量治理和 QoS 控制等安全与管理能力,统一在 DPU 上落地。

当这些能力不再消耗主机 CPU 时,CPU 可以更专注于业务本身的计算逻辑。在 AI 场景下,这往往意味着更多的 CPU 核心资源可以用于数据预处理、训练任务调度和推理前后处理。对云厂商而言,“100% 算力交付”更接近现实:租户购买的 vCPU 不再被大量 I/O 开销侵蚀,“全资源售卖”也从营销口号变成可以量化的交付能力。

内置安全:构建 CPU–DPU–GPU 的可信链路

对于高敏感 AI 业务而言,把算力迁移到云上,最大的顾虑往往来自数据安全与可信执行。NVIDIA BlueField 不仅是一个性能加速器,也是云上“可信数据通路”的关键支点。虽然BlueField 数据处理单元(DPU)通过将网络和输入/输出(I/O)路径纳入严格控制的安全边界,强化了机密计算部署。与机密虚拟机和机密容器技术协同工作,有助于将保护范围从计算层扩展出去,以支持更全面的端到端安全架构。

在安全架构中,BlueField 主要承担三类角色:

  • I/O 路径的可信执行环境,通过硬件卸载与可控数据路径,将网络与存储流量纳入更可控的安全边界;
  • Zero Trust 风格的隔离能力,对来自不同租户、不同安全域的流量进行精细化的隔离与策略控制;
  • 与 CPU/GPU 侧机密计算能力协同,实现 CPU–DPU–GPU 之间的可信链路,降低数据在 PCIe 总线和网络传输过程中的暴露风险。

基于这种架构,百度云已经在新一代机密虚拟机中实现规模化落地。BlueField-3 成为了“全链路可信”体系中的重要一环:上有机密虚机、机密容器,侧有 DPU 保障的可信 I/O 通路,最终构建从计算到存储、从主机到网络的统一安全边界。

面向下一代 AI 云基础设施的意义

站在云平台的视角,采用 NVIDIA BlueField 并不仅仅是“换一块更强的网卡”,而是重构 I/O、虚拟化和安全栈的一次机会。通过硬件加速、开放 DOCA 生态和内生安全,BlueField 帮助云平台在以下几个层面形成差异化能力:

  • 为大模型训练和推理提供高性能低时延的数据通路,支撑多 GPU 集群的高效协同;
  • 保持云原生弹性能力不打折,包括弹性调度、热迁移、滚动升级等关键特性;
  • 构建覆盖 CPU–DPU–GPU 的一体化可信链路,为高敏感 AI 业务的大规模上云提供前提条件。

对于希望在 AI 云战场中建立长期优势的厂商来说,NVIDIA BlueField不再是“性能优化选配项”,而越来越接近下一代 AI 基础设施的“必选项”。

了解更多 BlueField 平台的信息,请访问:https://www.nvidia.cn/networking/products/data-processing-unit/ 

标签