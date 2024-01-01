  1. 主页

NVIDIA Dynamo-Triton，前称 NVIDIA Triton Inference Server，可在主流框架上部署 AI 模型，包括 TensorRT、PyTorch、ONNX、OpenVINO、Python 和 RAPIDS FIL。

它通过动态图批处理、并发执行和优化配置实现高性能推理。Dynamo-Triton 支持实时、批处理、集成以及音视频流式工作负载，并可运行在 NVIDIA GPU、非 NVIDIA 加速器、x86 和 ARM CPU 上。

作为开源项目，Dynamo-Triton 兼容 DevOps 和 MLOps 工作流，可与 Kubernetes 集成实现弹性扩展，并支持 Prometheus 进行监控。它适用于云端和本地 AI 平台，并作为 NVIDIA AI Enterprise 的一部分，提供安全、可用于生产环境的部署方案，具备稳定的 API 和完善的技术支持。

针对大语言模型（LLM）场景，NVIDIA 还提供了专为 LLM 推理与多模式部署设计的 NVIDIA Dynamo。它通过引入分离式服务、前缀缓存及键值缓存至存储等 LLM 专用优化功能，与 Dynamo-Triton 相辅相成。

了解 Dynamo-Triton 工作原理

入门资源 - 自主培训

只需一台电脑和互联网连接，即可随时随地通过我们的自主课程 Deploying a Model for Inference at Production Scale 进行学习。

快速入门指南

了解开始使用 Triton 推理服务器的基础知识，包括如何创建模型库、启动 Triton 以及发送推理请求。

入门博客

了解 Triton 推理服务器如何帮助简化生产环境中的 AI 推理、有助于 Triton 部署的工具以及生态系统集成。

教程

深入了解 Triton 推理服务器中的一些概念，以及部署各种常见模型的示例。

开始使用 Dynamo-Triton

为任意应用、任意平台上的 AI 推理部署、运行和扩展，查找合适的授权方案。

访问开发代码

Triton 推理服务器在 GitHub 上作为开源软件提供，并提供端到端示例。

访问 Triton 推理服务器代码库

下载容器和发布版本

适用于 x86 和 Arm® 的基于 Linux 的 Triton 推理服务器容器可在 NVIDIA NGC* GitHub 上提供客户端库以及适用于 Windows 的 Triton 推理服务器和 NVIDIA Jetson JetPack™ 的二进制版本。

从 NGC 中提取 Triton 推理服务器

下载 Windows 或 Jetson 版本

购买 NVIDIA AI Enterprise

购买 NVIDIA AI Enterprise，其中包括用于生产推理的 Triton 推理服务器。

立即申请 90 天 NVIDIA AI Enterprise 评估许可证

申请在 NVIDIA LaunchPad 上试用 Triton 推理服务器
联系我们，详细了解如何购买 Triton

入门套件

访问有关推理主题的技术内容，例如大语言模型、云部署和模型集成。

大语言模型

大语言模型 (LLM) 是越来越重要的深度学习模型类别，它们需要独特的功能来更大限度地加速。此套件将带您了解围绕 LLM 构建的 Triton 推理服务器的功能，以及如何利用它们。

云部署

Triton 推理服务器包含许多功能和工具，有助于在云端大规模部署深度学习。借助此套件，您可以探索如何在不同的云和编排环境中部署 Triton 推理服务器。

模型集成

现代深度学习系统通常需要在工作流中使用多个模型，并使用加速的预处理和后处理步骤。了解如何通过模型集成和业务逻辑脚本在 Triton 推理服务器中高效实施这些功能。

更多资源

探索开发者论坛

加速您的初创公司

加入 NVIDIA 开发者计划

符合伦理的 AI

NVIDIA 认为可信 AI 是一项共同责任，我们已制定相关政策和实践，以支持开发各种 AI 应用。根据我们的服务条款下载或使用时，开发者应与其支持的模型团队合作，确保此模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。如发现安全漏洞或对 NVIDIA AI 有相关疑虑，请在此处提交反馈。

