NVIDIA Triton 推理服务器

NVIDIA Triton™ 推理服务器是 NVIDIA AI 平台的一部分,它是一款开源推理服务软件,可助力标准化模型的部署和执行,并在生产环境中提供快速且可扩展的 AI。

开始使用

什么是 NVIDIA Triton?

Triton 推理服务器可助力团队在任意基于 GPU 或 CPU 的基础设施上部署、运行和扩展任意框架中经过训练的 AI 模型,进而精简 AI 推理。同时,AI 研究人员和数据科学家可在不影响生产部署的情况下,针对其项目自由选择合适的框架。它还帮助开发者跨云、本地、边缘和嵌入式设备提供高性能推理。

支持多个框架

Triton 推理服务器支持所有主流框架,例如 TensorFlow、NVIDIA® TensorRT™、PyTorch、MXNet、Python、ONNX、RAPIDS™ FIL(用于 XGBoost、scikit-learn 等)、OpenVINO、自定义 C++ 等。

高性能推理

Triton 支持所有基于 NVIDIA GPU、x86 和 ARM® CPU 的推理。它具有动态批处理、并发执行、最优模型配置、模型集成和串流输入等功能,可更大限度地提高吞吐量和利用率。

专为 DevOps 和 MLOps 设计

Triton 与 Kubernetes 集成,可用于编排和扩展,导出 Prometheus 指标进行监控,支持实时模型更新,并可用于所有主流的公有云 AI 和 Kubernetes 平台。它还与许多 MLOPS 软件解决方案集成。


各项应用中快速且可扩展的 AI

高推理吞吐量

Triton 可在单个 GPU 或 CPU 上并行指定相同或不同框架下的多个模型。在多 GPU 服务器中,Triton 会自动为基于每个 GPU 的每个模型创建一个实例,以提高利用率。

它还可在严格的延迟限制条件下优化实时推理服务,通过支持批量推理来更大限度地提高 GPU 和 CPU 利用率,并内置对音频和视频流输入的支持。对于需要使用多个模型来执行端到端推理(例如对话式 AI)的用例,Triton 支持模型集成。

模型可在生产环境中实时更新,无需重启 Triton 或应用。Triton 支持对单个 GPU 显存无法容纳的超大模型进行多 GPU 以及多节点推理。

NVIDIA Triton 推理服务器提供高推理吞吐量。

NVIDIA Triton 推理服务器提供高度可扩展的推理。

高度可扩展的推理

作为一个 Docker 容器,Triton 与 Kubernetes 集成,用于编排、指标和自动缩放。Triton 还与 Kubeflow 和 Kubeflow 工作流集成,实现端到端的 AI 工作流,并导出 Prometheus 指标,用于监控 GPU 利用率、延迟、内存使用率和推理吞吐量。它支持标准的 HTTP/gRPC 接口,可与 load balancer 等其他应用连接,并可轻松扩展到任意数量的服务器,以为任意模型处理日益增长的推理负载。

Triton 可通过一个模型控制 API 来服务于数十或数百个模型。您可基于为适应 GPU 或 CPU 显存而进行的改动,将模型加载到推理服务器中或从推理服务器中卸载。支持兼具 GPU 和 CPU 的异构集群有助于跨平台实现推理标准化,并动态扩展到任意 CPU 或 GPU 以处理峰值负载。

Triton 的主要功能

Triton Forest Inference Library (FIL) 后端

新的 Forest Inference Library (FIL) 后端支持在 CPU 和 GPU 上对基于树的模型进行具有可解释性(Shapley 值)的高性能推理。它支持来自 XGBoost、LightGBM、scikit-learn RandomForest、RAPIDS cuML RandomForest 以及其他 Treelite 格式的模型。

了解详情

Triton 模型分析器

Triton 模型分析器是一种自动评估 Triton 部署配置(例如目标处理器上的批量大小、精度和并发执行实例)的工具。它有助于选择优化配置,以满足应用的服务质量 (QoS) 限制(延迟、吞吐量和内存要求)。它可以将找到优化配置所需的时间从数周缩短到数小时。

了解详情

NVIDIA Triton 的生态系统集成情况

AI 正在推动大大小小的企业实现创新,而 NVIDIA AI 处于这一创新的前沿。作为一款开源软件解决方案,Triton 是进行 AI 推理和模型部署的上佳之选。阿里云、Amazon Elastic Kubernetes Service (EKS)、Amazon Elastic Container Service (ECS)、Amazon SageMaker、Google Kubernetes Engine (GKE)、Google Vertex AI、HPE Ezmeral、Microsoft Azure Kubernetes Service (AKS) 和 Azure Machine Learning 都支持 Triton。了解各企业使用 Triton 的原因。

通过 NVIDIA LaunchPad,直接访问托管式基础设施,并通过精心策划的免费实验体验 Triton 推理服务器。


成功案例

了解 NVIDIA TensorRT 如何支持 Amazon。
Amazon 徽标

探索 Amazon 如何通过将推理速度提升 5 倍来提高客户满意度。

阅读博客
了解 NVIDIA TensorRT 如何支持 AMEX。
American Express 徽标

了解 American Express 如何将每天数千万笔交易的分析速度提高 50 倍,以提高欺诈检测的准确性。

阅读博客
了解 NVIDIA TensorRT 如何支持 Zoox。
Siemens Energy

探索 Siemens Energy 如何通过提供基于 AI 的远程监控来监测泄漏、异常噪音等问题,加强物理检测。

了解详情

资源

了解 NVIDIA Triton 如何大规模简化 AI 部署。

大规模简化 AI 部署

在生产环境中简化 AI 模型的大规模部署。了解 Triton 如何应对部署 AI 模型的挑战,并查看入门步骤。

下载概述
探索近期的 NVIDIA Triton 点播讲座。

点播观看 GTC 讲座

观看 NVIDIA GTC 中关于 Triton 推理服务器的近期点播讲座。

立即观看
部署 AI 深度学习模型。

部署 AI 模型

获取 NVIDIA 技术博客的近期新闻和更新,并详细了解主要优势。

阅读博客

NVIDIA 面向初创公司的计划

英伟达初创加速计划是一项旨在促进初创公司加速发展的免费计划,可为初创公司提供先进的技术(如 NVIDIA Triton)、NVIDIA 专家的支持、与风险投资者交流的机会,以及联合营销支持。

了解详情
详细了解面向初创公司的英伟达初创加速计划。