NVIDIA Dynamo-Triton

NVIDIA Dynamo-Triton，前称 NVIDIA Triton Inference Server，可在主流框架上部署 AI 模型，包括 TensorRT、PyTorch、ONNX、OpenVINO、Python 和 RAPIDS FIL。



它通过动态图批处理、并发执行和优化配置实现高性能推理。Dynamo-Triton 支持实时、批处理、集成以及音视频流式工作负载，并可运行在 NVIDIA GPU、非 NVIDIA 加速器、x86 和 ARM CPU 上。



作为开源项目，Dynamo-Triton 兼容 DevOps 和 MLOps 工作流，可与 Kubernetes 集成实现弹性扩展，并支持 Prometheus 进行监控。它适用于云端和本地 AI 平台，并作为 NVIDIA AI Enterprise 的一部分，提供安全、可用于生产环境的部署方案，具备稳定的 API 和完善的技术支持。



针对大语言模型（LLM）场景，NVIDIA 还提供了专为 LLM 推理与多模式部署设计的 NVIDIA Dynamo。它通过引入分离式服务、前缀缓存及键值缓存至存储等 LLM 专用优化功能，与 Dynamo-Triton 相辅相成。



