NVIDIA Grove

NVIDIA Grove 是一款开源的 Kubernetes API,用于定义单节点和多节点 AI 推理工作负载(例如使用 NVIDIA Dynamo 部署的工作负载)的结构与生命周期,同时让这些工作负载能够在基于 Kubernetes 的环境中高效扩展。

Grove 专为在 GPU 集群中编排具有复杂需求的大规模 AI 工作负载而打造,开发者可以在单个自定义资源中描述多组件工作负载,包括各组件的角色、依赖关系、多级扩缩容规则以及启动顺序。Grove 是 NVIDIA Dynamo 的一个模块化组件,但也可以作为独立方案部署,或集成到其他高性能推理框架中使用。

开始使用文档


NVIDIA Grove 的工作原理

高性能推理框架通过 Grove 的分级 API 来表达不同角色的业务逻辑和多级扩缩容策略,从而在各类集群环境中实现一致且优化的部署体验。Grove 通过其工作负载 API 中的三个分级自定义资源来编排多组件 AI 工作负载,从而完成这一目标。

NVIDIA Rivermax provides real-time streaming for the Las Vegas Sphere, world’s largest LED display
  • PodCliques 表示具有特定角色的 Kubernetes Pod 组,例如预填充 worker、解码 leader 或前端服务,每个都有独立的配置和扩展逻辑。

  • PodCliqueScalingGroups 会将那些必须一起扩缩容的、紧密耦合的 PodClique 进行打包,例如需要协同缩放行为的预填充主节点和预填充工作节点。

  • PodCliqueSets 定义整个多组件工作负载,指定启动顺序、扩展策略和帮组调度约束,以确保所有组件一起启动或一起失败。在扩展以获得额外容量时,Grove 会创建整个 PodGangSet 的完整副本,并定义在集群中分发这些副本以实现高可用性的散布约束,同时保持每个副本的组件网络打包以实现最佳性能。

NVIDIA Rivermax provides real-time streaming for the Las Vegas Sphere, world’s largest LED display

启用 Grove 的 Kubernetes 集群需要部署 Grove operator,以及一个能够识别 PodGang 资源的调度器,例如 KAI scheduler

创建 PodCliqueSet 资源时,Grove 的 Operator 会验证规范并自动生成必要的 Kubernetes 资源,包括组成 PodCliques、PodCliqueScalingGroups 以及相关服务、密钥和自动扩展策略。然后,Grove 运算符创建 PodGang 将工作负载需求转化为调度程序调度约束的资源。每个 PodGang 都包含 Pod 组具有最小副本保证、网络拓扑封装性能要求和可用性分布限制,从而在整个集群中实现拓扑感知布局和高效资源利用。

调度程序会监视这些 PodGang 资源并应用分组调度逻辑,确保所有必需组件一起调度或完全不调度,同时根据 GPU 集群拓扑优化布局。此过程可实现多组件 AI 堆栈的协调部署,其中预填充服务、解码工作程序和路由组件以正确的顺序开始,并具有最佳的网络布局,从而防止资源死锁和部分部署浪费集群中的资源。

快速入门指南

使用 PodGangSets、PodCliques 和 ScalingGroups 部署您的首个 AI 推理工作负载,只需几分钟即可在 Kubernetes 上完成从安装到运行分解推理的整个过程。

为何选择 Grove:编排和扩展问题

了解 Grove 如何利用内置智能将复杂的 AI 推理工作负载从数十个 YAML 文件和手动协调转换为单一的声明性自定义资源定义 (CRD) 。

详细了解 Grove

阅读完整的 API 参考、高级配置选项以及在生产环境中部署 Grove 的详细指南。


开始使用 NVIDIA Grove

在 Kubernetes 上安装 Grove 并运行首个多组件 AI 工作负载。

Get NVIDIA Grove running on your cluster

在集群上运行 Grove

Grove 安装可部署 Grove Operator,为 PodCliqueSets、PodCliques 和 PodCliqueScalingGroups 创建必要的 CRD,以及用于管理工作负载和生成调度约束的控制器。

通过 Helm Chart 安装

使用 Make Target 进行安装

NVIDIA Grove Deep Dive

深入了解 NVIDIA Grove

了解 Grove 解决的问题、其关键功能,以及它如何通过易于使用的高级 API 实现声明性工作负载定义,从而实现调度器级优化。

观看视频

NVIDIA Grove 入门套件

解耦式服务

分解式推理可根据不同需求将模型服务分成专门的组件 (预填充、解码、路由) 。此套件探讨了分离服务的架构模式和编排挑战。

调度 AI 工作负载

从初始模型训练到推理,调度工作负载在整个 AI 生命周期中发挥着关键作用。此套件涵盖对 KAI 调度程序环境中的高性能 AI 工作负载至关重要的高级调度概念。

推理优化

更大限度地提高 AI 推理性能需要理解并在软硬件中应用先进的优化技术。此套件涵盖在生产环境中实现最佳吞吐量和延迟的不同方法。


NVIDIA Grove 学习资源库

Tech Blog

借助 KAI Scheduler 实现大规模高级 AI 工作负载调度

NVIDIA KAI 调度程序

从技术角度概述 KAI 调度程序、其对机器学习团队的价值以及调度周期和操作。

Video

NVIDIA Dynamo 简介

NVIDIA Dynamo

了解 NVIDIA Dynamo 的关键组件和架构,以及它们如何在分布式环境中实现无缝扩展和优化推理。

Documentation

使用 Grove 跨多个节点部署 Dynamo 工作负载

NVIDIA Dynamo

了解如何使用 Grove 的 API 部署多节点 NVIDIA Dynamo 工作负载,实现大规模拓扑优化推理。

Tech Blog

在实践中理解轮式调度

NVIDIA KAI 调度程序

通过光线工作负载了解核心轮组调度概念,包括队列创建、作业提交和基于优先级的抢占。

Video

采用 NVIDIA Dynamo 的 KV 缓存感知型智能路由器

NVIDIA Dynamo

探索 NVIDIA Dynamo 如何通过 (键值) KV 缓存感知型智能路由来缩短首次 token 和请求延迟的时间。


更多资源

 Decorative image representing Community

加入 Discord 社区

 Decorative image representing Training and Certification

获取培训和认证

Decorative image representing Developer Community

加入 NVIDIA 开发者计划


符合伦理的 AI

NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持开发各种 AI 应用。根据我们的服务条款下载或使用时,开发者应与其支持的模型团队合作,确保此模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。

有关此模型道德因素的更多详细信息,请参阅模型卡 可解释性、偏差、安全性和隐私子卡。请单击此处报告安全漏洞或 NVIDIA AI 问题。

立即开始使用 NVIDIA Grove。

开始使用