智能体/生成式 AI

NVIDIA BlueField-4 赋能的推理上下文记忆存储平台,引领 AI 迈向新前沿

随着代理式 AI 工作流将上下文窗口扩展到数百万个 token,并将模型规模扩展到数百万亿个参数,AI 原生企业正面临着越来越多的扩展挑战。这些系统目前依赖于智能体长期记忆来存储跨多轮、工具和会话持续保存的上下文,以便智能体能够基于先前的推理进行构建,而不是每次请求都从头开始。

随着上下文窗口的增加,KV 缓存(键值缓存)容量需求也相应增长,而重新计算历史记录的计算需求增长得更快,这使得 KV 缓存复用和高效存储对于性能和效率至关重要。

这增加了现有内存层级结构的压力,迫使 AI 提供商在稀缺的 GPU 高带宽内存(HBM)和针对持久性、数据管理和保护而优化的通用存储层级之间做出选择,而不是为短暂的 AI 原生 KV 缓存提供服务,从而推高了功耗,增加了每个 token 的成本,并导致昂贵的 GPU 未得到充分利用。

NVIDIA Rubin 平台支持 AI 原生企业扩展推理基础设施,满足智能体时代的需求。该平台将 AI 基础设施组织成计算 Pod,这些 Pod 包括 GPU 的多机架单元,NVIDIA SpectrumX 以太网网络和存储作,是 AI 工厂横向扩展的基础构建模块。

在每个 Pod 中,NVIDIA 推理上下文记忆存储(ICMS)平台提供了一种专为大规模推理而设计的全新 AI 原生存储基础设施。NVIDIA SpectrumX 以太网提供可预测、低延迟和高带宽的 RDMA 连接,确保对大规模共享 KV 缓存具有一致、低抖动的数据访问。

在 NVIDIA BlueField-4 数据处理器的支持下,Rubin 平台构建了一个优化的上下文记忆层,通过保持延迟敏感、可复用的推理上下文并对其进行预加载来提高 GPU 利用率,从而增强现有的网络对象和文件存储。它提供额外的上下文存储,使每秒 token(TPS)提高了 5 倍,并且比传统存储的能效提高了 5 倍。

本文介绍了不断增长的代理式 AI 工作负载和长上下文推理如何给现有内存和存储层级带来越来越大的压力,并介绍了 NVIDIA 推理上下文记忆存储(ICMS) 平台作为 Rubin AI 工厂中的全新上下文层,从而提供更高的吞吐量、更高的能效和可扩展的 KV 缓存复用。

全新的推理范式和上下文存储挑战

随着模型从简单的聊天机器人演变为复杂的多轮智能体工作流,企业面临着新的可扩展性挑战。如今,基础模型的参数数量已达到数万亿,上下文可容纳数百万个 token,三大 AI 扩展定律(预训练、后训练和推理时扩展)正在推动计算密集型推理的激增。智能体不再是无状态的聊天机器人,而是依赖于对话、工具和中间结果的长期记忆,这些记忆可跨服务共享,并能随时间推移被反复调取。

在基于 Transformer 架构的模型中,长期记忆以推理上下文的形式实现,也称为 KV 缓存。KV 缓存能够保存推理阶段的上下文信息,从而避免模型为生成每个新 Token 而重复计算历史数据。随着序列长度的增加,KV 缓存的规模会呈线性增长,迫使其在更长的会话中持续保存,并可在多个推理服务之间实现共享。

这种演进将 KV 缓存定位为一种由特定二元性定义的独特 AI 原生数据:它对性能是至关重要的,但本质上又是短暂的。在智能体系统中,KV 缓存已然成为模型的长期记忆,可以在多个步骤中被复用与扩展,而不是在单次提示响应后即被丢弃。

与不可篡改的企业记录不同,推理上下文是派生的且可重新计算的,因此需要一种存储架构,该架构更优先考虑能效、成本效益以及速度和可扩展性,而非传统的数据持久性。在现代 AI 基础设施中,这意味着每兆瓦的电力最终都取决于它能提供多少有用的 token。

要满足这些需求,已经使现有的内存和存储层达到极限。因此,各企业正在重新思考如何在 GPU 内存、主机内存和共享存储之间保存上下文。

为了厘清这一技术鸿沟,我们不妨先审视一下推理上下文目前是如何在 G1 – G4 层级结构中的流转机制(图 1)。AI 基础设施团队使用各种编排框架,例如 NVIDIA Dynamo 来帮助管理这些存储层级之间的上下文:

  • G1(GPU HBM):用于正在执行生成过程中的访问频率较高且延迟敏感的 KV 缓存
  • G2(系统 RAM):用于暂存和缓存从 HBM 移出的 KV 缓存
  • G3(本地 SSD):用于存储可短期被复用的、访问频率适中的 KV 缓存
  • G4(共享存储):用于存储访问频率较低的数据资产、历史记录和运算结果,此类数据需满足持久性要求,但不处于即使关键业务路径上

G1 针对访问速度进行了优化,而 G3 和 G4 则针对持久性进行了优化。随着上下文的增长,KV 缓存会迅速耗尽本地存储容量(G1-G3),同时将部分数据存储到企业级存储(G4),这会带来难以接受的性能开销,并导致成本和功耗的攀升。

图 1 展示了这种权衡关系,显示了 KV 缓存在内存和存储层级中远离 GPU 的同时,其使用成本是如何随之持续攀升的。

 1.  GPU 内存 (G1) 到共享存储(G4), KV 缓存存储层级结构

在整个存储层级架构的顶层,GPU HBM(G1)可提供纳秒级访问和超高效率,使其成为直接用于 token 生成的活跃 KV 缓存。随着上下文超出 HBM 的物理限制,KV 缓存会扩展到系统 DRAM(G2)和本地/机架内存储(G3)中,此时访问延迟会增加,每个 token 的能耗和成本开始上升。虽然这些层级扩展了有效容量,但每向下迁移一个层级,都会产生额外的开销,从而降低整体效率。

在整个存储层级架构的底层,共享对象和文件存储(G4)可提供持久性和存储容量,但延迟将达到毫秒级,推理效率也是最低的。虽然它适用于存储访问频率较低的或共享的数据资产,但将活跃或频繁复用的 KV 缓存保存到此层级会增加功耗,并直接限制 AI 扩展的成本效益。

核心结论可总结为:延迟和效率紧密相关:随着推理上下文远离 GPU,访问延迟将增加,能耗和每个 token 的成本将会上升,整体效率将会下降。性能优化内存和容量优化存储之间日益扩大的差距,迫使 AI 基础设施团队重新思考如何在整个系统中存储、管理和扩展不断增长的 KV 缓存上下文。

AI 工厂需要一个互补的、专门构建的上下文层,将 KV 缓存视为其自身的 AI 原生数据类型,而不是将其强制存储于稀缺的 HBM 或通用企业级存储之中。

NVIDIA 推理上下文记忆存储平台

NVIDIA 推理上下文记忆存储平台是一套完全集成的存储基础设施。该平台利用 NVIDIA BlueField-4 数据处理器(DPU),构建在 Pod 级别运行的专用上下文记忆层,以弥合高速 GPU 内存和可扩展共享存储之间的性能差距。这可以加速 POD 内各节点之间的 KV 缓存数据访问和高速数据共享,从而提高性能并优化功耗,以满足日益增长的大规模上下文推理需求。

该平台创建了一个新的 G3.5 层级,这是一个通过以太网连接的闪存层级,专门针对 KV 缓存进行了优化。该层级可以充当 AI 基础设施 pod 的智能体长期记忆,其容量足够大,可以为多个智能体存储共享的且不断演变的上下文,同时其距离足够近,可以频繁地将上下文预先加载回 GPU 和主机内存,而不会迟滞 Decode。

该层级为每个 GPU Pod 提供 PB 级的共享容量,使长上下文工作负载在从 HBM 和 DRAM 中移除后仍能保留历史记录。历史记录存储在低功耗的闪存层级中,该层级扩展了 GPU 和主机内存层级结构。G3.5 层级可提供海量聚合带宽,且效率高于传统共享存储。这使得 KV 缓存转变为共享的高带宽资源,编排器可以跨智能体和服务进行协作,而无需在每个节点上单独重新实现。

由于 G3.5 层级现在提供了大部分对延迟敏感的临时 KV 缓存服务,因此可以将高持久性的 G4 对象和文件存储空间留给真正需要随着时间推移而长期保存的数据。其中包括非活跃的多轮 KV缓存数据、查询历史记录、日志以及其他可能在后续会话中会被调用的多轮推理数据。

这减轻了 G4 的容量和带宽压力,同时保留了重要的应用级历史记录。随着推理规模的扩大,G1 – G3 KV 缓存容量会随着 GPU 数量的增加而增长,但其容量太小,故仍然无法满足所有 KV 缓存的存储需求。推理上下文存储平台(ICMS)填补了 G1 – G3 和 G4 之间缺失的 KV 缓存容量。

NVIDIA Dynamo 等推理框架将其 KV 块管理器与 NVIDIA 推理传输库(NIXL)协同使用,从而编排推理上下文在内存和存储层级之间的传输,并使用 ICMS 作为 KV 缓存的上下文记忆层。这些框架中的 KV 管理器会预先加载 KV 块,并在 Decode 阶段之前将它们从 ICMS 传输至 G2 或 G1 内存。

这种可靠的预先暂存机制,得益于 ICMS 具有相较于传统存储更高的带宽和更高的能效,旨在更大限度地减少迟滞和空闲时间,从而使长上下文和智能体工作负载的持续吞吐量(TPS)提升高达 5 倍。当与运行 KV I/O 控制平面的 NVIDIA BlueField-4 处理器结合使用时,该系统可高效替代 NVMe-oF 和对象/RDMA 协议。

图 2 显示了 ICMS 如何融入 NVIDIA Rubin 平台和 AI 工厂堆栈。

在推理层,NVIDIA Dynamo 和 NIXL 可管理 Prefill、Decode 和 KV 缓存,同时协调对共享上下文的访问。在该层下,使用 NVIDIA Grove 的拓扑感知编排层将工作负载布置于具有 KV 局部性感知的机架上,从而使工作负载即使在节点之间移动也可以继续复用上下文。

在计算节点层面,KV 分层涵盖 GPU HBM、主机内存、本地 SSD、ICMS 和网络存储,为编排器提供了满足存储上下文的连续容量和延迟。Spectrum-X 以太网将 Rubin 计算节点与 BlueField-4 ICMS 目标节点连接起来,提供始终如一的低延迟和高效网络连接,并将闪存支持的上下文记忆集成到用于训练和推理的同一 AI 优化结构中。

赋能 NVIDIA 推理上下文记忆存储平台

NVIDIA BlueField-4 为 ICMS 提供强大的支持,提供 800Gb/s 的连接速度、64 核 NVIDIA Grace CPU 和高带宽 LPDDR 内存。其专用硬件加速引擎可提供高达 800Gb/s 的线速加密和 CRC 数据保护。

这些加密和完整性加速器旨在作为 KV 管道的一部分,在不增加主机 CPU 开销的情况下保护和验证 KV 数据流。通过利用标准 NVMe 和 NVMe-oF 传输协议(包括 NVMe KV 扩展),ICMS 在保持与标准存储基础设施的互操作性的同时,还提供 KV 缓存所需的专属性能。

该架构采用 BlueField-4 来加速 KV I/O 和控制平面操作,实现跨 Rubin 计算节点上的和 ICMS 闪存机箱中控制器上的 DPU 加速,从而减少对主机 CPU 的依赖,并更大限度地减少序列化操作和主机内存复制。此外,Spectrum-X 以太网提供经过 AI 优化的 RDMA 网络架构,通过可预测的低延迟、高带宽连接将 ICMS 闪存机箱和 GPU 节点连接起来。

此外,NVIDIA DOCA 框架引入了 KV 通信和存储层,将上下文缓存视为 KV 管理、共享和保存的一级资源,充分利用 KV 块和推理模式的独特属性。DOCA 与推理框架对接,BlueField-4 实现 KV 缓存与底层闪存介质的高效传输。

这种无状态且可扩展的方法符合 AI 原生 KV 缓存策略,并利用 NIXL 和 Dynamo 实现跨 AI 节点的高级共享,并提高推理性能。DOCA 框架支持用于更广泛编排的开放接口,为存储合作伙伴提供了扩展且推理解决方案的灵活性,以涵盖 G3.5 上下文存储层。

Spectrum-X 以太网作为高性能网络结构,支持基于 RDMA 的 AI 原生 KV 缓存访问,从而为 NVIDIA 推理上下文记忆存储平台实现高效的数据共享和检索。Spectrum-X 以太网专为 AI 而构建,可大规模提供可预测的低延迟、高带宽的网络连接。它通过先进的拥塞控制、动态路由和优化的无损 RoCE 来实现这一点,更大限度地降低高负载下的网络抖动、尾部延迟和丢包。

凭借超高的有效带宽、深度遥测和硬件辅助性能隔离,Spectrum-X 以太网能够在大规模多租户 AI 网络架构中,实现一致且可重复的性能,同时保持完全基于标准协议并可与开放式网络软件兼容行交互操作。Spectrum-X 以太网使 ICMS 能够以一致的高性能进行扩展,从而更大限度地提高多轮智能体推理工作负载的吞吐量和响应速度。

提供高能效、高吞吐量的 KV 缓存存储

电力是 AI 工厂扩展的主要制约因素,因此能效是衡量大规模推理的关键指标。传统的通用存储堆栈牺牲了能效,因为它们在基于 x86 的控制器上运行,并在元数据管理、复制和后台一致性检查等功能上消耗大量能源,而这些功能对于暂存和可重构的 KV 数据来说是不必要的。

KV 缓存与企业级数据有着本质区别:它是瞬时的派生数据,即使丢失了也可以重新计算。作为推理上下文,它不需要为长期记录设计的持久性、冗余性或全面的数据保护机制。将这些高负载的存储服务应用于 KV 缓存会引起不必要的开销,增加延迟和功耗,同时降低推理效率。通过将 KV 缓存视为一种独特的 AI 原生数据类型,ICMS 消除了这种额外的开销,与通用存储方案相比,能效提高多达 5 倍。

这种效率提升不仅限于存储层,还延伸至计算网络结构本身。通过可靠地预加载上下文并减少或避免 Decode 停滞停机,ICMS 可防止 GPU 在空闲周期或重复历史数据计算上浪费能源,从而将吞吐量(TPS)提高达 5 倍。这种方法可确保将功率直接用于主动推理,而不是基础设施开销,从而更大限度地提高整个 AI Pod 的有效每瓦 token 数量。

实现具有更好性能和 TCO 的大规模 代理式 AI

基于 BlueField-4 的 ICMS, 为 AI 原生企业提供了一种扩展代理式 AI 的新方法:一个 POD 级上下文层,可扩展有效的 GPU 内存,并将 KV 缓存转换为跨 NVIDIA Rubin POD 的共享高带宽长期记忆资源。通过卸载 KV 移动并将上下文视为可复用的非持久数据类型,ICMS 可减少重新计算和 Decode 停滞,从而将更高的每秒 token 数量直接转化为更多的查询处理、更多的智能体并发运行、更短的大规模尾部延迟。

综合上述这些收益可以提高总体拥有成本(TCO),使团队能够在一机架、统一机柜排或同一数据中心内部署更多的可用 AI 算力,同时延长现有基础设施的使用寿命,并围绕 GPU 算力而非存储开销来规划未来的扩展。

想要了解更多关于 NVIDIA BlueField-4 的推理上下文记忆存储平台,请参阅新闻稿以及NVIDIA BlueField-4 Datasheet

观看 NVIDIA 创始人兼 CEO 黄仁勋在 CES 2026 上的 NVIDIA Live 直播回放并探索相关会议。

标签