NVIDIA Grove 是一款开源的 Kubernetes API，用于定义单节点和多节点 AI 推理工作负载（例如使用 NVIDIA Dynamo 部署的工作负载）的结构与生命周期，同时让这些工作负载能够在基于 Kubernetes 的环境中高效扩展。 Grove 专为在 GPU 集群中编排具有复杂需求的大规模 AI 工作负载而打造，开发者可以在单个自定义资源中描述多组件工作负载，包括各组件的角色、依赖关系、多级扩缩容规则以及启动顺序。Grove 是 NVIDIA Dynamo 的一个模块化组件，但也可以作为独立方案部署，或集成到其他高性能推理框架中使用。

NVIDIA Grove 的工作原理

高性能推理框架通过 Grove 的分级 API 来表达不同角色的业务逻辑和多级扩缩容策略，从而在各类集群环境中实现一致且优化的部署体验。Grove 通过其工作负载 API 中的三个分级自定义资源来编排多组件 AI 工作负载，从而完成这一目标。



PodCliques 表示具有特定角色的 Kubernetes Pod 组，例如预填充 worker、解码 leader 或前端服务，每个都有独立的配置和扩展逻辑。

PodCliqueScalingGroups 会将那些必须一起扩缩容的、紧密耦合的 PodClique 进行打包，例如需要协同缩放行为的预填充主节点和预填充工作节点。

PodCliqueSets 定义整个多组件工作负载，指定启动顺序、扩展策略和帮组调度约束，以确保所有组件一起启动或一起失败。在扩展以获得额外容量时，Grove 会创建整个 PodGangSet 的完整副本，并定义在集群中分发这些副本以实现高可用性的散布约束，同时保持每个副本的组件网络打包以实现最佳性能。

启用 Grove 的 Kubernetes 集群需要部署 Grove operator，以及一个能够识别 PodGang 资源的调度器，例如 KAI scheduler。



创建 PodCliqueSet 资源时，Grove 的 Operator 会验证规范并自动生成必要的 Kubernetes 资源，包括组成 PodCliques、PodCliqueScalingGroups 以及相关服务、密钥和自动扩展策略。然后，Grove 运算符创建 PodGang 将工作负载需求转化为调度程序调度约束的资源。每个 PodGang 都包含 Pod 组具有最小副本保证、网络拓扑封装性能要求和可用性分布限制，从而在整个集群中实现拓扑感知布局和高效资源利用。



调度程序会监视这些 PodGang 资源并应用分组调度逻辑，确保所有必需组件一起调度或完全不调度，同时根据 GPU 集群拓扑优化布局。此过程可实现多组件 AI 堆栈的协调部署，其中预填充服务、解码工作程序和路由组件以正确的顺序开始，并具有最佳的网络布局，从而防止资源死锁和部分部署浪费集群中的资源。

