AI 时代正在催生一种新型基础设施:AI 工厂。AI 工厂能将数据转化为智能,赋能规模空前的自主AI 智能体。借助加速计算,AI 工厂使企业能够更快速、更高效地训练、微调和部署 AI。
这种新型基础设施还带来了了一个全新的攻击面,涵盖基础设施、软件供应链、模型、数据以及执行权限日益扩展的自主智能体。随着代理式 AI 应用的加速普及,攻击者越来越多地将目标对准 AI 基础设施及其所承载的应用,,这给任务关键型系统的机密性、完整性和可用性带来了新的风险。
传统的安全架构无法满足 AI 工厂的规模、复杂性和性能需求。保护这种新型基础设施需要分布式、全栈且加速的安全解决方案。
本文将介绍 NVIDIA BlueField DPU(数据处理器)与 NVIDIA DOCA 如何通过运行时检测、数据访问控制以及加速网络执行来保护 AI 工厂,从而在大规模 AI 环境中保护 AI 基础设施、工作负载、智能体和数据。
芯片级安全如何改变传统的安全模式?
NVIDIA BlueField DPU 专为 AI 基础设施而设计,将高性能网络、可编程计算、硬件加速与高级安全功能整合到一个平台中,并嵌入每个 AI 工厂的计算节点中。与依赖主机系统软件的传统安全方案不同,BlueField 构建了一个硬件强制执行、芯片级且与工作负载无关的安全层。
BlueField 在其自身的可信执行域中运行,将基础设施和安全服务与主机系统进行有效隔离。即使主机或工作负载遭到入侵,监控、策略执行和遥测功能仍能正常运行。由于安全功能与其保护的系统保持隔离,攻击者无法篡改或绕过 BlueField 强制执行的基础设施安全策略。
这种架构从根本上改变了传统的安全模式。传统的端点保护与其保护的环境共享相同的信任边界和系统资源,因此一旦主机遭到入侵,安全软件很容易被篡改、绕过或禁用。通过将安全处理卸载到 BlueField 芯片,它可以提供可靠性的全栈保护,而无需消耗主机计算资源或与 AI 工作负载竞争,从而保持了基础设施的峰值效率和 AI 性能。

NVIDIA BlueField 和 DOCA 如何保护整个 AI 工厂
借助 NVIDIA Vera Rubin 平台,安全功能得以在整个 AI 工厂中分布式部署,并直接集成于基础设施层。NVIDIA BlueField-4 处理器可嵌入到每个计算和存储系统中,包括 NVIDIA Vera Rubin NVL72 计算托盘、Vera CPU 计算托盘、LPX 系统以及 Vera BlueField-4 STX 存储系统,为整个平台构建统一的硬件级安全基础。
基于 BlueField-4 芯片,全新的 NVIDIA DOCA 安全功能可将保护范围扩展至整个 AI 生命周期及 Vera Rubin 平台。无论是保护 AI 模型、上下文记忆、数据集,还是运行时交互,BlueField 均能保护各类数据、工作负载和智能体的安全。这不仅包括对自主智能体本身的防护,还能抵御在推理、训练以及新兴的代理式 AI 工作流中运行的高权限智能体对 AI 工厂的攻击。
NVIDIA DOCA 安全堆栈为保护整个 AI 工厂提供了统一的框架。借助 BlueField-4 加速,DOCA 使运行时威胁检测速度比纯软件的无代理方法快 1000 倍,同时以高达 800Gb/s 的速度执行网络和文件访问策略。这使得安全性能够以 AI 的速度和规模运行。

BlueField 与 NVIDIA AI 集成,可将遥测和安全数据流式传输到 GPU 加速系统,以进行 AI 驱动的分析,生成可执行的安全情报,从而动态调整防护措施并直接在 DPU 上执行策略。最终,我们将构建一个持续学习的安全架构,该架构专为代理式 AI 的速度、规模和复杂性而构建。
DOCA Argus 如何检测 AI 工作负载中的威胁?
DOCA Argus 是一种运行时威胁检测微服务,可为整个 AI 工厂提供实时的可视性与态势感知能力。Argus 是 DOCA 安全堆栈的核心基础。
DOCA Argus 在 BlueField 数据和存储处理器上运行,利用高级内存分析技术,持续观察运行时的工作负载行为,使企业能够在不影响 AI 工作负载性能的情况下检测威胁、监控完整性并了解运行状态。
与传统的基于主机的安全方法不同,DOCA Argus 独立于其保护的计算节点运行。通过利用 BlueField 硬件隔离和可验证的执行环境以及 DOCA 直接内存访问功能,Argus 可以安全地访问特定的易失性主机内存片段 (系统活动的权威数据源) ,而无需依赖软件代理或消耗主机 CPU 资源。通过零拷贝内存访问技术,在不影响应用程序或 AI 性能的情况下进行这种检查。
DOCA Argus 会自动识别主机系统上运行的 Linux 内核版本,并应用内核特定的内存映射来定位分析所需的精确内存结构。该平台支持 x86 和 Arm64 架构,可直接从主机内存结构中收集底层遥测数据,并将原始内存数据转换为有意义的运行上下文,包括进程、线程、执行状态、工作负载活动和系统行为的可视性。
策略引擎会持续分析收集到的遥测数据,以识别有意义的运行和安全信号,同时过滤不相关的活动。这有助于实时了解系统行为、攻击迹象和异常运行时状况。安全发现被分为事件和警报,事件提供运行感知和上下文可视性,警报可指示需要调查或响应的即时威胁或可疑行为。
通过持续分析内存的状态变化和行为异常,DOCA Argus 提供了持久的运行时监控,而无需依赖传统的基于主机的代理。由于安全控制独立于主机运行,即使工作负载或操作系统遭到入侵,检测功能也保持不变。同时,持续收集的取证证据有助于调查潜在事件,并为事件后分析提供支持。

AI 运行时完整性监控
AI 应用通常作为容器部署,从同一镜像实例化的工作负载应表现出一致且可预测的行为。DOCA Argus 利用这种一致性为 AI 工作负载建立行为配置文件,从而实时对偏差进行监控,这些偏差可能表明存在安全漏洞、未经授权的活动或恶意行为。
DOCA Argus 通过监控运行时正在执行的内容、执行方式以及与那些对象交互,不断验证运行时的完整性。这包括将二进制文件的行为和属性与预期的运行时清单进行比较,通过 SHA-256 哈希值来验证完整性,分析命令行参数和执行路径等执行上下文,以及监控与线程、库、文件系统、网络和内存的交互,以验证工作负载是否按预期运行。
该平台提供进程级的文件访问和网络活动可视性,持续监控哪些文件被那些进程访问以及执行了哪些操作。它会分析流入和流出网络连接,以确保工作负载保持预期的通信模式,且不会出现可疑行为。
通过将实时运行时活动与既定行为基准进行比较,DOCA Argus 可以实时识别违反完整性的行为和入侵迹象。例如,检测功能包括未经授权的进程执行、未经授权的库使用、偏差检测、bash shell 执行、反向 shell 活动以及与入侵或恶意行为相关的其他运行时异常。
AI 发现和暴露管理
DOCA Argus 还为整个 AI 工厂的 AI 发现和暴露管理提供了基础可视层。该平台持续实时识别、映射和上下文化 AI 基础设施、工作负载及其相互关系。
这包括跨容器 (包括 Kata 容器) 、虚拟机和裸机系统的工作负载状态感知,以及映射基础设施组件之间的关系, 例如容器到 POD、容器到 VM 以及容器到操作系统依赖关系。
通过使用容器镜像哈希值,DOCA Argus 可以将运行时构件与公开可用的存储库和企业内部软件清单关联起来,从而帮助识别已部署的 AI 软件、模型和自主智能体。借助 DOCA Argus 遥测技术,企业可以了解哪些 AI 组件正在运行、它们的部署位置以及它们在整个环境中的交互方式。
DOCA Argus 还可以通过分析已执行二进制文件和加载库的 SHA-256 哈希值来帮助识别潜在的漏洞软件组件,从而支持被动漏洞管理。
将 AI 处理集成到网络安全运营中
DOCA Argus 通过标准遥测导出机制 (包括 Fluent Bit 和 Vector) 与现有的网络安全生态系统无缝集成,使企业能够将安全遥测数据流式传输到 SIEM、SOAR、XDR 平台和企业数据湖中进行丰富和分析。
网络安全团队可以将现有的分析、关联引擎、威胁情报和自动事件响应工作流无缝扩展到 AI 环境中,而无需对架构进行重大更改。网络安全提供商可以提取和规范化 DOCA Argus 遥测数据以及来自自身传感器的数据,从而通过与传统威胁检测和调查环境相同的运营视角监控 AI 工作负载和加速基础设施。
重要的是,DOCA Argus 通过将提取的遥测数据限制为运行和安全相关信息,而不会暴露个人身份信息 (PII) ,从而保护了隐私。
DOCA Argus 在单个 BlueField 处理器上运行,可以为整个计算节点提供全面的运行时监控和威胁检测,以最小的运营开销提供基础设施级的可视性和保护。DOCA Argus 与 BlueField 芯片级安全架构相结合,使企业和云 AI 工厂构建者能够在不牺牲性能、效率或 AI 吞吐量的前提下大规模保护任何工作负载。
DOCA Vault 如何实现实时数据访问控制?
DOCA Vault 是一个数据安全框架,专为基于文件的 AI 原生存储而构建,能够实时控制整个 AI 工厂的数据访问方式。DOCA Vault 直接在芯片中执行细粒度的授权策略,独立于主机操作系统和存储平台。
这可为基于文件的存储提供零信任访问层,确保只有经过授权的 AI 工作负载进程 (包括智能体、训练作业、推理服务和 AI 应用程序) 才能访问运行所需的特定数据,并且只能执行明确允许的操作。
与依赖主机系统执行的传统访问控制不同,DOCA Vault 与存储访问请求同步运行,即使主机操作系统、应用程序或存储层遭到入侵,也能保持策略执行。该架构使企业能够安全地扩展多智能体 AI 环境,同时在异构存储基础设施中保持一致的安全控制。
DOCA Vault 与 DOCA Argus 和 DOCA SNAP (通过 DOCA 设备仿真 SDK) 集成,提供安全、策略驱动的存储访问所需的可视性和强制执行能力。DOCA SNAP 通过在 PCIe 总线上仿真本地驱动器,将网络存储作为本地文件系统设备呈现给主机系统。因此,操作系统和虚拟机管理程序(hypervisor)继续使用标准存储驱动程序,而没有意识到请求正在通过 BlueField 加速的存储框架进行透明的重定向。
此架构允许在发生数据访问之前拦截和评估文件访问请求。DOCA Vault 通过从 DOCA Argus 收集的上下文遥测数据来丰富存储请求,从而详细了解发起请求的进程、目标文件以及请求的操作 (例如打开、读取或写入) 。这些上下文信号允许 DOCA Vault 执行高度细粒度的授权策略,确保只有正确的工作负载进程才能以适当的权限访问正确的文件。

DOCA Vault 还通过对 AI 工作负载和存储环境强制执行运行时完整性控制,将保护扩展到传统授权之外。细粒度策略可以限制那些程序可以执行,防止未经授权的文件创建,限制运行时偏差,并阻止未经授权的模型或数据泄露。通过严格控制文件访问行为,Vault 显著减少了攻击者在首次访问工作负载或容器后可以执行的操作。
在多智能体 AI 系统中,越来越多的智能体自主访问共享数据集、内存和模型,这种级别的控制变得尤为重要。未经授权或意外的文件活动会被实时阻止,这可以作为为系统遭到入侵的有力指标,帮助企业在恶意行为扩撒到整个 AI 工厂之前将其检测出来。
DOCA Vault 将存储安全直接嵌入到基础设施层,使企业能够在不牺牲性能的情况下保护敏感数据集、AI 模型、上下文记忆和知识产权。Vault 在 BlueField-4 上运行,可提供实时授权和保护,同时保持极高的 AI 吞吐量和应用程序效率。
DOCA Flow 如何加速高级安全服务?
DOCA Flow 是 DOCA 软件平台中的一个基础库,可帮助开发者和网络安全提供商在 BlueField 处理器上构建高性能、硬件加速的数据包处理流水线。通过可编程 API,开发者能够定义在网络硬件中直接执行的数据包处理“管道”,从而将网络和安全操作从主机 CPU 卸载,同时实现超低延迟和高吞吐量。
通过直接在芯片中执行数据包检测、加密、过滤和策略执行,DOCA Flow 使网络安全能够以 AI 速度和规模运行,而不会影响应用程序或 AI 工作负载性能。
DOCA Flow 的核心用途之一是对 BlueField 处理器进行编程,使其具备内置连接跟踪功能的高性能第 4 层防火墙,从而对整个 AI 工厂的前端和后端流量进行细粒度控制。这使企业能够执行网络分段、隔离工作负载并实时防止未经授权的通信路径 (包括加密流量) 。
DOCA Flow 使网络安全提供商能够直接在 BlueField 上加速高级安全服务。其中包括专为加速基础设施和代理式 AI 环境构建的 7 层防火墙、AI 安全网关、应用感知检测以及策略实施服务。
随着 AI 工厂规模不断扩展以支持越来越多的分布式和自主工作负载,网络通信成为关键的攻击面。DOCA Flow 使安全策略能够直接在基础设施层中实施,防止威胁在系统之间横向传播,同时保持大规模 AI 训练和推理所需的线速性能和效率。
开始使用 NVIDIA DOCA 实现代理式 AI 工厂安全
虽然 NVIDIA DOCA 安全堆栈的各个组件均能独立提供强大的安全功能,但是 DOCA Argus、DOCA Vault 和 DOCA Flow 共同构建了一个统一的芯片级安全框架,全面保护 AI 工厂 及代理式 AI 的整个生命周期。该堆栈融合了运行时可视性、零信任数据保护与加速网络执行能力,可在不牺牲性能和可扩展性的前提下,为 AI 基础设施、工作负载、智能体及数据提供端到端的安全防护。
这些服务专为在 NVIDIA BlueField 处理器上协同运行而构建,它们共享遥测、策略上下文和执行功能,为基础设施、工作负载、数据和网络通信提供协调一致的保护。
其结果是为代理式 AI 构建了一个安全设计架构:该架构能够持续验证信任关系,以基础设施的速度执行策略,并以现代加速计算所需的规模和性能保护 AI 工厂。如需了解更多详情,请参阅使用 DOCA 构建安全的 AI 基础设施,深入了解 NVIDIA DOCA 与加速基础设施。
回看 NVIDIA 创始人兼首席执行官黄仁勋在 2026 GTC 台北的主题演讲,深入探讨 AI 基础设施的未来。