随着代理式 AI 工作流将上下文窗口扩展至数百万个 tokens,以及模型规模增长至数万亿参数,AI+ 原生组织正面临日益严峻的扩展挑战。这些系统目前依赖代理式长期内存,以维持跨回合、工具和会话的上下文连续性,使智能体能够基于先前的推理进行迭代和深化,而非每次请求都从头开始处理。
随着上下文窗口的扩大,对键值(KV)缓存容量的需求也随之增加,而重新计算历史记录所需的计算量增长更为迅速,这使得 KV 缓存的重用与高效存储对性能和效率尤为关键。
这加剧了现有显存层次结构的压力,迫使 AI 提供商在稀缺的 GPU 高带宽显存(HBM)与针对耐用性、数据管理和保护优化的通用存储层之间做出权衡——后者并非为支持短暂的 AI 原生 KV 缓存而设计,从而导致功耗上升、每 token 成本增加,且昂贵的 GPU 资源未能得到充分利用。
NVIDIA Rubin 平台使 AI 原生组织能够扩展推理基础设施,以满足代理式时代的需求。该平台将 AI 基础设施整合为计算 POD,这些 POD 是由 NVIDIA Spectrum™ X 以太网网络、GPU 和存储构成的多机架单元,作为 AI 工厂 横向扩展的基本模块。
在每个 Pod 中,NVIDIA 推理上下文内存存储 (ICMS) 平台提供专为千兆级推理打造的新型 AI 原生存储基础设施。NVIDIA Spectrum™ X 以太网实现可预测、低延迟且高带宽的 RDMA 连接,保障对共享 KV 缓存的大规模一致性和低抖动数据访问。
在 NVIDIA BlueField-4 数据处理器的支持下,Rubin 平台构建了一个优化的上下文内存层,通过保留延迟敏感且可重复使用的推理上下文并对其进行预置,提升 GPU 利用率,从而增强现有的网络对象和文件存储。该平台提供额外的上下文存储,使每秒 tokens^ (TPS) 提升达 5 倍,能效也较传统存储提高 5 倍。
本文介绍了不断增长的代理式 AI 工作负载与长上下文推理如何持续加剧对现有内存和存储层级的压力,并阐述了 NVIDIA 推理上下文内存存储(ICMS)平台作为 Rubin AI 工厂中的新型上下文层,可提供更高的吞吐量、更优的能效以及可扩展的 KV 缓存重用能力。
新的推理范式与上下文存储的挑战
随着模型从简单的聊天机器人演进为复杂的多轮代理式工作流,企业组织正面临新的可扩展性挑战。随着基础模型的参数规模达到数万亿,上下文窗口扩展至数百万 tokens,三大 AI 扩展定律(预训练、后训练与测试时扩展)正推动计算密集型推理需求急剧上升。智能体不再局限于无状态的对话交互,而是依赖于长期记忆,持续追踪对话历史、工具调用及中间结果,这些信息跨服务共享,并可在后续过程中反复访问。
在基于 Transformer 的模型中,长期内存通过推理上下文实现,也称为 KV 缓存。该机制能够保留推理过程中的上下文信息,使模型无需为每个新生成的 token 重新计算历史状态。随着序列长度的增加,KV 缓存会线性增长,因此在较长的会话中需要持续维护,并可在不同的推理服务之间共享。
这种演变将 KV 缓存定位为由特定二元性定义的独特 AI+ 原生数据类型:它对性能至关重要,但本质上是短暂的。在代理式系统中,KV 缓存实际上转化为模型的长期记忆,在多个步骤中被重复使用和扩展,而非在单次提示响应后即被丢弃。
与不可变企业记录不同,推理上下文属于可衍生和可重新计算的数据,因此存储架构需优先考虑功耗与成本效率,以及速度和规模,而非传统的数据耐用性。在现代 AI 基础设施中,这意味着每兆瓦的功率最终取决于其能够提供的有效 tokens 数量。
满足这些要求可将现有的内存和存储层级扩展至极限。因此,组织正重新思考如何在 GPU 显存、主机显存与共享存储之间分配上下文。
为了理解这一差距,我们可以先了解推理上下文在 G1 – G4 层次结构中的流动方式(图 1)。AI 基础架构团队采用 NVIDIA Dynamo 等编排框架,以协助管理跨越以下存储层的环境:
- G1(GPU HBM)用于主动生成过程中关键的 KV 及热延迟
- G2(系统 RAM)用于在 HBM 之外对 KV 进行暂存和缓冲
- G3(本地 SSD)用于存储短期内可能重复使用的暖 KV
- G4(共享存储)用于保存需持久化但不在直接关键路径上的冷数据、历史记录及结果
G1 针对访问速度进行了优化,而 G3 和 G4 则侧重于耐用性。随着上下文的增长,KV 缓存会迅速耗尽本地存储容量(G1-G3),并将其推送到企业级存储(G4),这将导致延迟显著增加,同时带来更高的成本与功耗。
图 1 说明了这种权衡,展示了 KV 缓存随着其在内存和存储层次结构中远离 GPU 而使用成本逐渐增加的情况。
在层次结构的顶部,GPU HBM (G1) 可提供纳秒级访问速度和超高效率,适合直接用于 token 生成的活动 KV 缓存。当上下文超出 HBM 的物理限制时,KV 缓存会溢出至系统 DRAM (G2) 以及本地或机架连接存储 (G3),此时访问延迟逐渐增加,每个 token 的能耗和成本也随之上升。尽管这些层级扩展了有效容量,但每增加一次数据跳转都会带来额外开销,导致整体效率下降。
在层次结构的底部,共享对象和文件存储 (G4) 能提供良好的耐用性和容量,延迟仅为毫秒级,但推理效率相对较低。尽管适用于冷数据或共享伪影,若将活跃或频繁重复使用的 KV 缓存推送至该层,将导致功耗上升,并直接制约经济高效的 AI 扩展。
要点是延迟与效率紧密关联:随着推理环境远离 GPU,访问延迟增大,单位 token 的能耗和成本上升,整体效率随之下降。性能优化型内存与容量优化型存储之间的差距日益扩大,促使 AI 基础架构团队重新思考如何在整个系统中布局、管理并扩展不断增长的 KV 缓存环境。
AI 工厂需要一个互补的专用上下文层,将 KV 缓存视作自身的 AI 原生数据类别,而非强行将其用于稀缺的 HBM 或通用企业级存储。
隆重推出 NVIDIA 推理上下文内存存储平台
NVIDIA 推理上下文内存存储平台是完全集成的存储基础设施。该平台利用 NVIDIA BlueField-4 数据处理器,在 Pod 级别构建专用的上下文内存层,有效弥合高速 GPU 显存与可扩展共享存储之间的差距。此举可加速 Pod 内节点间 KV 缓存数据的访问与高效共享,从而提升性能并优化功耗,满足大上下文推理不断增长的需求。
该平台构建了一个新的 G3.5 层,这是一个专为 KV 缓存优化而设计的以太网连接闪存层。该层作为 AI 基础设施 pod 的代理式长期内存,容量足够大,可同时容纳多个智能体持续演进的共享上下文,同时具备足够近的访问距离,能够频繁将上下文预暂存回 GPU 和主机内存,而不会引发解码延迟。
它为每个 GPU Pod 提供 PB 级的共享容量,支持长上下文工作负载在从 HBM 和 DRAM 中移出后仍能保留历史记录。这些历史记录存储在基于闪存的低功耗层中,该层可扩展 GPU 和主机显存的层次结构。G3.5 层能够提供巨大的聚合带宽,且效率优于传统共享存储。这使得 KV 缓存可被转化为共享的高带宽资源,编排器可在代理和服务之间进行协调,而无需在每个节点上重复实现。
现在,G3.5 层承担了大部分对延迟敏感的临时 KV 缓存,因此持久化的 G4 对象与文件存储可专门用于保存那些需要长期留存的数据。这包括非活跃的多轮 KV 状态、查询历史记录、日志,以及其他可能在后续会话中被调用的多轮推理产物。
这样可以降低 G4 的容量与带宽压力,同时保留关键的应用级历史记录。随着推理规模的扩大,G1 – G3 的 KV 容量会随 GPU 数量的增加而增长,但仍不足以满足全部 KV 需求。ICMS 弥补了 G1 – G3 与 G4 之间的 KV 容量缺口。
NVIDIA Dynamo 等推理框架将其 KV 块管理器与 NVIDIA 推理传输库 (NIXL) 相结合,用于编排推理上下文在内存和存储层之间的移动,并将 ICMS 作为 KV 缓存的上下文内存层。这些框架中的 KV 管理器会对 KV 块进行预处理,并在解码阶段开始前将其从 ICMS 导入 G2 或 G1 内存。
与传统存储相比,ICMS 具有更高的带宽和能效,这种可靠的预暂存设计旨在显著减少停机和空闲时间,使长上下文和代理式工作负载的持续 TPS 提升 5 倍。当与运行 KV I/O 平面的 NVIDIA BlueField-4 处理器结合使用时,系统可高效终止 NVMe-oF 以及对象/ RDMA 协议。
图 2 展示了 ICMS 在 NVIDIA Rubin 平台与 AI 工厂堆栈中的集成方式。
在推理层,NVIDIA Dynamo 和 NIXL 能够管理预填充、解码以及 KV 缓存,同时协调对共享上下文的访问。在该层之下,借助 NVIDIA Grove 的拓扑感知编排层,可将工作负载部署在具备 KV 局部性感知的机架之间,从而确保即使工作负载在节点间迁移,仍能持续复用上下文。
在计算节点级别,KV 分层涵盖 GPU HBM、主机内存、本地 SSD、ICMS 和网络存储,为编排器提供连续的容量与延迟目标,以支持上下文的合理放置。Spectrum-X 以太网将这些组件连接在一起,将 Rubin 计算节点与 BlueField-4 ICMS 目标节点相互联通,提供稳定低延迟且高效的网络连接,使闪存支持的上下文内存得以集成到同一套面向训练和推理服务的 AI 优化架构中。
助力 NVIDIA 推理上下文内存存储平台
NVIDIA BlueField-4 以 800 Gb/s 的连接速度、64 核 NVIDIA Grace CPU 和高带宽 LPDDR 显存为 ICMS 提供支持,其专用硬件加速引擎可实现高达 800 Gb/s 的线速加密与 CRC 数据保护。
这些加密和完整性加速器旨在作为 KV 管道的一部分,能够在不增加主机 CPU 开销的情况下,对 KV 流进行保护和验证。通过利用标准的 NVMe 和 NVMe-oF 传输(包括 NVMe KV 扩展),ICMS 可在保持与标准存储基础设施互操作性的同时,提供 KV 缓存所需的专用性能。
该架构利用 BlueField® 4 在 Rubin 计算节点上的 DPU 与 ICMS 闪存外壳中的控制器,加速 KV I/O 和控制平面操作,降低对主机 CPU 的依赖,并减少序列化及主机内存复制。此外,Spectrum® X 以太网提供 AI™ 优化的 RDMA 网络,以可预测、低延迟、高带宽的连接,实现 ICMS 闪存外壳与 GPU 节点之间的高效互联。
此外,NVIDIA DOCA 框架引入了 KV 通信与存储层,将上下文缓存作为 KV 管理、共享与放置的首要资源,充分利用 KV 块及推理模式的独特属性。DOCA 与推理框架协同工作,使 BlueField-4 能够高效地将 KV 缓存传输至底层闪存介质,或从底层闪存介质读取。
这种无状态且可扩展的方法符合 AI 原生 KV 缓存策略,通过 NIXL 和 Dynamo 实现跨 AI 节点的高效共享,从而提升推理性能。DOCA 框架提供支持广泛编排的开放接口,为存储合作伙伴扩展推理解决方案提供了灵活性,可覆盖 G3.5 上下文层。
Spectrum-X 以太网用作高性能网络架构,支持基于 RDMA 访问 AI 原生 KV 缓存,从而为 NVIDIA 推理上下文存储平台实现高效的数据共享与检索。Spectrum-X 以太网专为 AI 应用设计,能够大规模提供稳定、低延迟、高带宽的连接。它通过先进的拥塞控制、动态路由以及优化的无损 RoCE 技术,有效降低重负载下的抖动、尾部延迟和丢包现象。
凭借极高的有效带宽、深度遥测和硬件辅助性能隔离,Spectrum-X 以太网可在大型多租户 AI 网络中实现稳定、可重复的性能,同时保持完全基于标准的特性,并支持与开放式网络软件互操作。Spectrum-X 以太网使 ICMS 能够以稳定的高性能实现扩展,充分提升多圈代理式推理工作负载的吞吐量和响应速度。
提供节能高效、高吞吐量的 KV 缓存存储方案
电源可用性是扩展 AI 工厂的主要限制因素,因此能效成为千兆级推理的关键指标。传统的通用存储堆栈牺牲了这种效率,因其在基于 x86+ 的控制器上运行,并在元数据管理、复制和背景一致性检查等功能上消耗大量能源,而这些功能对于临时且可重建的 KV 数据而言并无必要。
KV 缓存与企业数据有本质区别:它是瞬时的衍生数据,一旦丢失可重新计算。作为推理环境中的临时数据,无需具备为长期存储设计的耐用性、冗余性或全面的数据保护机制。将重型存储服务应用于 KV 缓存会造成不必要的开销,增加延迟和功耗,同时降低推理效率。通过将 KV 缓存视为一种独特的 AI 原生数据类型,ICMS 消除了此类冗余开销,与通用存储方案相比,能效提升达 5 倍。
这种效率从存储层延伸至计算架构本身。通过可靠地预置上下文并减少或避免解码器停机,ICMS 能防止 GPU 在空闲周期或重复历史计算时浪费能源,从而将 TPS 提升 5 倍。该方法确保功率被直接用于主动推理,而非基础设施开销,显著提升整个 AI Pod 每瓦 tokens% 的能效。
实现具备更优性能与总拥有成本的千兆级代理式 AI
由 BlueField® 4 提供动力支持的 ICMS 为 AI+ 原生组织提供了一种扩展代理式 AI 的新方法:通过引入 Pod+ 级上下文层,可扩展有效的 GPU 显存,并将 KV 缓存转化为跨 NVIDIA Rubin Pod 的共享高带宽长期内存资源。ICMS 通过卸载 KV 数据移动,并将上下文视为可重复使用的非耐用数据类别,减少重新计算与解码停顿,从而将更高的每秒 tokens^ 输出直接转化为更多并发查询、支持更多智能体同时运行,并在大规模场景下显著降低尾部延迟。
这些收益共同降低了总体拥有成本(TCO),使团队能够在同一机架、行或数据中心内部署更多的可用 AI 容量,延长现有设施的使用寿命,并围绕 GPU 容量而非存储开销来规划未来的扩展。
如需详细了解由 NVIDIA BlueField-4 驱动的推理上下文内存存储平台,请参阅相关新闻稿及NVIDIA BlueField-4 数据表。
与首席执行官黄仁勋一同观看 NVIDIA 直播,深入了解相关会议内容。