NVIDIA Dynamo-Triton （原 NVIDIA Triton Inference Server™）可实现 AI 模型在各类工作负载中的标准化部署与执行，支持在 NVIDIA GPU 及 x86 和 Arm CPU 上进行高性能推理。开发者可将所有主流框架的模型进行部署，包括 NVIDIA TensorRT™-LLM、vLLM、TensorFlow、PyTorch、Python、ONNX、RAPIDS cuML、XGBoost、scikit-learn、RandomForest、OpenVINO、自定义 C++ 等。Dynamo-Triton 针对实时、批量、流式等多种查询类型优化推理，支持 模型集成 ，将多模型无缝连接为 AI 流水线。该平台兼容主流云端与本地 AI 及 MLOps 平台，非常适合希望快速构建 AI 应用的开发者。

NVIDIA Dynamo 是一个开源、低延迟的模块化推理框架，用于在分布式环境中服务生成式 AI 模型。它通过智能资源调度和请求路由、优化的内存管理和无缝的数据传输，实现跨大型 GPU 集群的推理工作负载无缝扩展。NVIDIA Dynamo 支持所有主要的 AI 推理后端，并提供专门针对大语言模型 (LLM) 的优化，例如分解服务。在 NVIDIA GB200 NVL72 上提供开源 DeepSeek-R1 671B 推理模型时，NVIDIA Dynamo 将吞吐量 (以每个 GPU 每秒令牌数衡量) 提高了 30 倍。它在 NVIDIA Hopper™ 上为 Llama 70B 模型服务，将吞吐量提高了 2 倍以上。NVIDIA Dynamo 是希望以更低的成本以更高的效率加速和扩展生成式 AI 模型的开发者的理想解决方案。

NVIDIA Dynamo Platform 是一个高性能、低延迟的推理平台，旨在支持所有 AI 模型，不论使用哪种框架、架构或部署规模。无论是在单个入门级 GPU 上运行图像识别，还是在数十万台数据中心 GPU 上部署拥有数十亿参数的推理型大语言模型（LLM），NVIDIA Dynamo Platform 都能提供可扩展、高效的 AI 推理能力。

NVIDIA Dynamo 的工作原理

模型变得越来越大，并且越来越集成到需要与多个模型交互的 AI 工作流中。大规模部署这些模型涉及将它们分布在多个节点上，需要跨 GPU 进行仔细的协调。随着推理优化方法（如分解服务）的出现，复杂性也会增加，分解服务会将响应分散到不同的 GPU 上，从而增加了协作和数据传输方面的挑战。

NVIDIA Dynamo 解决了分布式和分解推理服务的挑战。它包括四个关键组件：

GPU 资源规划器： 一个规划和调度引擎，用于监控多节点部署中的容量和预填充活动，以调整 GPU 资源，并在预填充和解码之间分配这些资源。

智能路由： KV 缓存感知路由引擎，可在多节点部署中高效引导大型 GPU 集群中的传入流量，从而最大限度地减少昂贵的重新计算。

低延迟通信库： 先进的推理数据传输库，可加速 GPU 之间以及异构内存和存储类型之间的 KV 缓存传输。

KV 缓存管理器：成本感知型 KV 缓存卸载引擎，旨在跨各种内存层次结构传输 KV 缓存，在保持用户体验的同时释放宝贵的 GPU 内存。

观看录制视频，了解 NVIDIA Dynamo 的关键组件和架构，以及它们如何在分布式环境中实现无缝扩展和优化推理。



