NVIDIA Dynamo-Triton
NVIDIA Dynamo-Triton,前称 NVIDIA Triton Inference Server,可在主流框架上部署 AI 模型,包括 TensorRT、PyTorch、ONNX、OpenVINO、Python 和 RAPIDS FIL。
它通过动态图批处理、并发执行和优化配置实现高性能推理。Dynamo-Triton 支持实时、批处理、集成以及音视频流式工作负载,并可运行在 NVIDIA GPU、非 NVIDIA 加速器、x86 和 ARM CPU 上。
作为开源项目,Dynamo-Triton 兼容 DevOps 和 MLOps 工作流,可与 Kubernetes 集成实现弹性扩展,并支持 Prometheus 进行监控。它适用于云端和本地 AI 平台,并作为 NVIDIA AI Enterprise 的一部分,提供安全、可用于生产环境的部署方案,具备稳定的 API 和完善的技术支持。
针对大语言模型(LLM)场景,NVIDIA 还提供了专为 LLM 推理与多模式部署设计的 NVIDIA Dynamo。它通过引入分离式服务、前缀缓存及键值缓存至存储等 LLM 专用优化功能,与 Dynamo-Triton 相辅相成。
了解 Dynamo-Triton 工作原理
入门资源 - 自主培训
只需一台电脑和互联网连接,即可随时随地通过我们的自主课程 Deploying a Model for Inference at Production Scale 进行学习。
开始使用 Dynamo-Triton
为任意应用、任意平台上的 AI 推理部署、运行和扩展,查找合适的授权方案。
下载容器和发布版本
适用于 x86 和 Arm® 的基于 Linux 的 Triton 推理服务器容器可在 NVIDIA NGC* GitHub 上提供客户端库以及适用于 Windows 的 Triton 推理服务器和 NVIDIA Jetson JetPack™ 的二进制版本。
从 NGC 中提取 Triton 推理服务器
下载 Windows 或 Jetson 版本
购买 NVIDIA AI Enterprise
购买 NVIDIA AI Enterprise,其中包括用于生产推理的 Triton 推理服务器。
立即申请 90 天 NVIDIA AI Enterprise 评估许可证
申请在 NVIDIA LaunchPad 上试用 Triton 推理服务器
联系我们,详细了解如何购买 Triton
入门套件
访问有关推理主题的技术内容,例如大语言模型、云部署和模型集成。
更多资源
符合伦理的 AI
NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持开发各种 AI 应用。根据我们的服务条款下载或使用时,开发者应与其支持的模型团队合作,确保此模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。如发现安全漏洞或对 NVIDIA AI 有相关疑虑,请在此处提交反馈。
