1. [主页  
](/)

Dynamo-Triton

# NVIDIA Dynamo-Triton

NVIDIA Dynamo-Triton，前称 NVIDIA Triton Inference Server，可在主流框架上部署 AI 模型，包括 TensorRT、PyTorch、ONNX、OpenVINO、Python 和 RAPIDS FIL。  
  
它通过动态图批处理、并发执行和优化配置实现高性能推理。Dynamo-Triton 支持实时、批处理、集成以及音视频流式工作负载，并可运行在 NVIDIA GPU、非 NVIDIA 加速器、x86 和 ARM CPU 上。  
  
作为开源项目，Dynamo-Triton 兼容 DevOps 和 MLOps 工作流，可与 Kubernetes 集成实现弹性扩展，并支持 Prometheus 进行监控。它适用于云端和本地 AI 平台，并作为 [NVIDIA AI Enterprise](https://www.nvidia.cn/data-center/products/ai-enterprise/) 的一部分，提供安全、可用于生产环境的部署方案，具备稳定的 API 和完善的技术支持。  
  
针对大语言模型（LLM）场景，NVIDIA 还提供了专为 LLM 推理与多模式部署设计的 NVIDIA Dynamo。它通过引入分离式服务、前缀缓存及键值缓存至存储等 LLM 专用优化功能，与 Dynamo-Triton 相辅相成。

[下载](https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver &quot;Download&quot;)[文档](https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/index.html &quot;Documentation&quot;)[论坛](https://forums.developer.nvidia.com/c/ai-data-science/deep-learning/triton-inference-server/97 &quot;Forum&quot;)

* * *

## 了解 Dynamo-Triton 工作原理

入门资源 - 自主培训

只需一台电脑和互联网连接，即可随时随地通过我们的自主课程 [Deploying a Model for Inference at Production Scale](https://courses.nvidia.com/courses/course-v1:DLI+S-FX-03+V1/) 进行学习。

### 快速入门指南  

了解开始使用 Triton 推理服务器的基础知识，包括如何创建模型库、启动 Triton 以及发送推理请求。

[开始使用](https://github.com/triton-inference-server/server/blob/main/docs/getting_started/quickstart.md)

### 入门博客  

了解 Triton 推理服务器如何帮助简化生产环境中的 AI 推理、有助于 Triton 部署的工具以及生态系统集成。

[阅读博客](https://developer.nvidia.cn/blog/fast-and-scalable-ai-model-deployment-with-nvidia-triton-inference-server/)

### 教程

深入了解 Triton 推理服务器中的一些概念，以及部署各种常见模型的示例。

[开始使用](https://github.com/triton-inference-server/tutorials)

* * *

## 开始使用 Dynamo-Triton

为任意应用、任意平台上的 AI 推理部署、运行和扩展，[查找](https://www.nvidia.cn/ai-data-science/products/triton-inference-server/get-started/)合适的授权方案。

 ![Access Code for Development](https://developer.download.nvidia.com/icons/m48-accelerate-computing-with-cuda-c-c++.svg)
### 访问开发代码  

Triton 推理服务器在 GitHub 上作为开源软件提供，并提供端到端示例。  
  
[访问 Triton 推理服务器代码库](https://github.com/triton-inference-server/server)

 ![Download Containers and Releases](https://developer.download.nvidia.com/icons/m48-download.svg)
### 下载容器和发布版本

适用于 x86 和 Arm® 的基于 Linux 的 Triton 推理服务器容器可在 [NVIDIA NGC](https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver)\* GitHub 上提供客户端库以及适用于 Windows 的 Triton 推理服务器和 NVIDIA Jetson JetPack™ 的二进制版本。  
  
[从 NGC 中提取 Triton 推理服务器](https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver)  
  
[下载 Windows 或 Jetson 版本](https://github.com/triton-inference-server/server/releases)

 ![Purchase NVIDIA AI Enterprise](https://developer.download.nvidia.com/icons/m48-digital-deep-learning-institute-talks-training.svg)
### 购买 NVIDIA AI Enterprise

购买 NVIDIA AI Enterprise，其中包括用于生产推理的 Triton 推理服务器。  
  
[立即申请 90 天 NVIDIA AI Enterprise 评估许可证](https://enterpriseproductregistration.nvidia.com/?LicType=EVAL&amp;ProductFamily=NVAIEnterprise)  
  
[申请在 NVIDIA LaunchPad 上试用 Triton 推理服务器](https://www.nvidia.com/en-us/launchpad/ai/inference/)  
[联系我们，详细了解如何购买 Triton](https://www.nvidia.cn/data-center/products/ai-enterprise/contact-sales/)

* * *

## 入门套件

访问有关推理主题的技术内容，例如大语言模型、云部署和模型集成。

### 大语言模型

大语言模型 (LLM) 是越来越重要的深度学习模型类别，它们需要独特的功能来更大限度地加速。此套件将带您了解围绕 LLM 构建的 Triton 推理服务器的功能，以及如何利用它们。  
  
[开始使用](https://resources.nvidia.com/en-us-ai-inference-large-language-models/)

- 

[阅读使用 NVIDIA NeMo™ 框架部署 13 亿 GPT-3 模型](https://developer.nvidia.cn/blog/deploying-a-1-3b-gpt-3-model-with-nvidia-nemo-megatron/)

- 

[快速入门指南：Isaac ROS cuMotion MoveIt 插件](https://nvidia-isaac-ros.github.io/repositories_and_packages/isaac_ros_cumotion/isaac_ros_cumotion_moveit/index.html#quickstart)

- 

[快速入门指南：cuMotion 机器人分割](https://nvidia-isaac-ros.github.io/repositories_and_packages/isaac_ros_cumotion/isaac_ros_cumotion/index.html#robot-segmentation-quickstart)

### 云部署

Triton 推理服务器包含许多功能和工具，有助于在云端大规模部署深度学习。借助此套件，您可以探索如何在不同的云和编排环境中部署 Triton 推理服务器。  
  
[开始使用](https://resources.nvidia.com/en-us-ai-inference-cloud-deployments)

- 

[使用 Amazon SageMaker 运行多个 AI 模型](https://resources.nvidia.com/en-us-ai-inference-cloud-deployments/run-multiple-ai-mode)

- 

[提升 Azure 机器学习的 AI 模型推理性能](https://developer.nvidia.cn/blog/boosting-ai-model-inference-performance-on-azure-machine-learning/)

- 

[使用 MIG 和 Kubernetes 大规模部署 NVIDIA Triton](https://developer.nvidia.cn/blog/deploying-nvidia-triton-at-scale-with-mig-and-kubernetes/)

- 

[一键式部署 NVIDIA Triton 推理服务器 GKE](https://resources.nvidia.com/en-us-ai-inference-cloud-deployments/one-click-deployment)

- 

[利用云就绪型 AI 推理解决方案的强大功能](https://resources.nvidia.com/en-us-ai-inference-cloud-deployments/other2024-aiinference2)

- 

[使用 Stable Diffusion XL 生成令人惊叹的图像](https://resources.nvidia.com/en-us-ai-inference-cloud-deployments/generate-stunning-im)

### 模型集成

现代深度学习系统通常需要在工作流中使用多个模型，并使用加速的预处理和后处理步骤。了解如何通过模型集成和业务逻辑脚本在 Triton 推理服务器中高效实施这些功能。  
  
[开始使用](https://resources.nvidia.com/en-us-ai-inference-model-ensembles)

- 

[使用集成模型在 NVIDIA Triton 推理服务器上提供机器学习模型工作流](https://developer.nvidia.cn/blog/serving-ml-model-pipelines-on-nvidia-triton-inference-server-with-ensemble-models/)

- 

[借助 NVIDIA Triton 推理服务器和 NVIDIA DALI 加速推理](https://developer.nvidia.com/blog/accelerating-inference-with-triton-inference-server-and-dali/)

- 

[如何使用 Triton 推理服务器部署 HuggingFace 的 Stable Diffusion 工作流](https://images.nvidia.cn/cn/youtube-replicates/JgP2WgNIq_w.mp4)

* * *

## 更多资源

 ![Decorative image representing Community](https://developer.download.nvidia.com/icons/m48-people-group.svg)
### 探索开发者论坛

 ![Decorative image representing Inception for Startups](https://developer.download.nvidia.com/images/isaac/m48-ai-startup-256px-blk.png)
### 加速您的初创公司

 ![Decorative image representing Developer Program](https://developer.download.nvidia.com/icons/m48-developer-1.svg)
### 加入 NVIDIA 开发者计划

* * *

## 符合伦理的 AI

NVIDIA 认为可信 AI 是一项共同责任，我们已制定相关政策和实践，以支持开发各种 AI 应用。根据我们的服务条款下载或使用时，开发者应与其支持的模型团队合作，确保此模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。如发现安全漏洞或对 NVIDIA AI 有相关疑虑，请在[此处](https://www.nvidia.com/en-us/support/submit-security-vulnerability/)提交反馈。

# 立即开始使用 Dynamo-Triton  

[下载 Triton](https://catalog.ngc.nvidia.com/orgs/nvidia/containers/tritonserver)


