NVIDIA Dynamo Platform

NVIDIA Dynamo Platform 是一个高性能、低延迟的推理平台，旨在支持所有 AI 模型，不论使用哪种框架、架构或部署规模。无论是在单个入门级 GPU 上运行图像识别，还是在数十万台数据中心 GPU 上部署拥有数十亿参数的推理型大语言模型（LLM），NVIDIA Dynamo Platform 都能提供可扩展、高效的 AI 推理能力。

NVIDIA Dynamo Platform 包含两个开源的推理服务框架：

NVIDIA Dynamo

NVIDIA Dynamo 是一个开源、低延迟的模块化推理框架，用于在分布式环境中服务生成式 AI 模型。它通过智能资源调度和请求路由、优化的内存管理和无缝的数据传输，实现跨大型 GPU 集群的推理工作负载无缝扩展。NVIDIA Dynamo 支持所有主要的 AI 推理后端，并提供专门针对大语言模型 (LLM) 的优化，例如分解服务。在 NVIDIA GB200 NVL72 上提供开源 DeepSeek-R1 671B 推理模型时，NVIDIA Dynamo 将吞吐量 (以每个 GPU 每秒令牌数衡量) 提高了 30 倍。它在 NVIDIA Hopper™ 上为 Llama 70B 模型服务，将吞吐量提高了 2 倍以上。NVIDIA Dynamo 是希望以更低的成本以更高的效率加速和扩展生成式 AI 模型的开发者的理想解决方案。

开始使用文档

NVIDIA Dynamo-Triton

NVIDIA Dynamo-Triton（原 NVIDIA Triton Inference Server™）可实现 AI 模型在各类工作负载中的标准化部署与执行，支持在 NVIDIA GPU 及 x86 和 Arm CPU 上进行高性能推理。开发者可将所有主流框架的模型进行部署，包括 NVIDIA TensorRT™-LLM、vLLM、TensorFlow、PyTorch、Python、ONNX、RAPIDS cuML、XGBoost、scikit-learn、RandomForest、OpenVINO、自定义 C++ 等。Dynamo-Triton 针对实时、批量、流式等多种查询类型优化推理，支持模型集成，将多模型无缝连接为 AI 流水线。该平台兼容主流云端与本地 AI 及 MLOps 平台，非常适合希望快速构建 AI 应用的开发者。

开始使用文档

了解 NVIDIA Dynamo 的实际应用

分布式推理 101 视频系列

NVIDIA Dynamo 的工作原理

模型变得越来越大，并且越来越集成到需要与多个模型交互的 AI 工作流中。大规模部署这些模型涉及将它们分布在多个节点上，需要跨 GPU 进行仔细的协调。随着推理优化方法（如分解服务）的出现，复杂性也会增加，分解服务会将响应分散到不同的 GPU 上，从而增加了协作和数据传输方面的挑战。

NVIDIA Dynamo 解决了分布式和分解推理服务的挑战。它包括四个关键组件：

GPU 资源规划器：一个规划和调度引擎，用于监控多节点部署中的容量和预填充活动，以调整 GPU 资源，并在预填充和解码之间分配这些资源。
智能路由：KV 缓存感知路由引擎，可在多节点部署中高效引导大型 GPU 集群中的传入流量，从而最大限度地减少昂贵的重新计算。
低延迟通信库：先进的推理数据传输库，可加速 GPU 之间以及异构内存和存储类型之间的 KV 缓存传输。
KV 缓存管理器：成本感知型 KV 缓存卸载引擎，旨在跨各种内存层次结构传输 KV 缓存，在保持用户体验的同时释放宝贵的 GPU 内存。

观看录制视频，了解 NVIDIA Dynamo 的关键组件和架构，以及它们如何在分布式环境中实现无缝扩展和优化推理。

快速入门指南

了解开始使用 NVIDIA Dynamo 的基础知识，包括如何在分解的服务器设置中部署模型以及如何启动智能路由器。

开始使用

入门博客

了解 NVIDIA Dynamo 如何帮助简化生产环境中的 AI 推理、有助于部署的工具以及生态系统集成。

阅读博客

使用 NVIDIA Dynamo 和 vLLM 部署 LLM 推理

NVIDIA Dynamo 支持所有主要后端，包括 vLLM。查看教程，了解如何使用 vLLM 进行部署。

阅读文档

开始使用 NVIDIA Dynamo

查找适合的许可证，以为所选平台上的应用部署、运行和扩展 AI 推理。

下载代码开发

NVIDIA Dynamo 在 GitHub 上以开源软件的形式提供，并附带端到端示例。

前往 NVIDIA Dynamo 资源库 (Github)

购买 NVIDIA AI Enterprise

NVIDIA AI Enterprise 将包含用于生产推理的 NVIDIA Dynamo。获取免费许可证，使用现有基础架构在生产环境中试用 NVIDIA AI Enterprise 90 天。

申请 90 天许可证

联系我们，详细了解 NVIDIA Dynamo

想进一步了解 NVIDIA Dynamo，请联系我们。

入门套件

访问有关预填充优化、解码优化和多 GPU 推理等推理相关的技术内容。

多 GPU 推理

模型规模不断扩大，无法再适应单个 GPU。部署这些模型需要在多个 GPU 和节点之间分配这些模型。此套件分享了用于多 GPU 推理的关键优化技术。

预填充优化

当用户向大语言模型提交请求时，它会生成 KV 缓存，以计算对请求的上下文理解。此过程的计算量非常大，需要进行专门的优化。此套件提供用于推理的基本 KV 缓存优化技术。

解码优化

在 LLM 生成 KV 缓存和第一个 token 后，它将进入解码阶段，并在此阶段以自回归方式生成剩余的输出 token。此套件重点介绍了解码过程的关键优化技术。

伦理 AI

NVIDIA 认为可信 AI 是一项共同责任，我们已制定相关政策和实践，以支持在各种应用中开发 AI。根据我们的服务条款下载或使用此模型时，开发者应与其支持的模型团队合作，确保此模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。

有关此模型道德因素的更多详细信息，请参阅 Model Card++可解释性、偏差、安全性和隐私子卡。请通过此链接报告安全漏洞或 NVIDIA AI 问题。

立即开始使用 NVIDIA Dynamo

立即下载

NVIDIA Dynamo Platform

NVIDIA Dynamo

NVIDIA Dynamo-Triton

了解 NVIDIA Dynamo 的实际应用

了解如何快速设置和部署 NVIDIA Dynamo

观看采用 NVIDIA Dynamo 的 KV 缓存感知型智能路由

了解 NVIDIA Dynamo 如何实现分解服务

数据中心性能与指标监控

管理 KV Cache 以提升推理延迟表现

NVIDIA Dynamo 的工作原理

快速入门指南

入门博客

使用 NVIDIA Dynamo 和 vLLM 部署 LLM 推理

开始使用 NVIDIA Dynamo

下载代码开发

购买 NVIDIA AI Enterprise

入门套件

多 GPU 推理

预填充优化

解码优化

更多资源

探索开发者 Discord

获取培训和认证

加速您的初创公司发展

注册以接收与推理相关的开发者新闻

阅读 NVIDIA Dynamo 常见问题解答

加入 NVIDIA 开发者计划

伦理 AI

立即开始使用 NVIDIA Dynamo