NVIDIA TensorRT

NVIDIA ® TensorRT 是一款用于高性能深度学习推理的 SDK,包含深度学习推理优化器和运行时,可为推理应用程序提供低延迟和高吞吐量。

立即下载 开始使用

NVIDIA TensorRT 的优势

TensorRT speeds up inference by 36X

推理速度提高 36 倍

基于 NVIDIA TensorRT 的应用程序在推理过程中的执行速度比纯 CPU 平台快达 36 倍,使您能够优化在所有主要框架上训练的神经网络模型,以高精度校准较低精度,并部署到超大规模数据中心、嵌入式平台或汽车产品平台。

TensorRT helps to optimize inference performance

优化推理性能

TensorRT 基于 NVIDIA CUDA® 并行编程模型构建,使您能够在 NVIDIA GPU 上使用量化、层和张量融合、内核调整等技术来优化推理。

TensorRT helps to accelerate every workload

加速每项工作负载

TensorRT 使用量化感知训练和训练后量化和浮点 16 (FP16) 优化来提供 INT8,用于部署深度学习推理应用程序,例如视频流、推荐、欺诈检测和自然语言处理。降低精度的推理可显着减少延迟,这是许多实时服务以及自主和嵌入式应用程序所必需的。

TensorRT-optimized models can be deployed, run, and scaled with NVIDIA Triton

使用 Triton 进行部署、运行和扩展

TensorRT 优化的模型可以使用 NVIDIA Triton™ 进行部署、运行和扩展,这是一种开源推理服务软件,其中包含 TensorRT 作为其后端之一。使用 Triton 的优势包括动态批处理和并发模型执行的高吞吐量,以及模型集成、流式音频/视频输入等功能。


大型语言模型的推理

NVIDIA TensorRT-LLM

NVIDIA TensorRT-LLM 是一个开源库,可加速和优化 NVIDIA AI 平台上最新大型语言模型 (LLM) 的推理性能。它让开发人员可以尝试新的 LLM,提供高性能和快速定制,而无需深入了解 C++ 或 CUDA。

开发人员现在可以 通过同一工作流程无缝工作 ,将 NVIDIA 数据中心系统上的LLM性能加速到本地台式机和笔记本电脑 GPU(包括本机 Windows 上的 NVIDIA RTX 系统)。

TensorRT-LLM 将 TensorRT 的深度学习编译器(包括 FasterTransformer 的优化内核、预处理和后处理以及多 GPU 和多节点通信)包装在一个简单的开源 Python API 中,用于定义、优化和执行LLM生产中的推理。


阅读我们的博客,了解如何开始
NVIDIA TensorRT-LLM

领先的推理性能

TensorRT 是 NVIDIA 在 MLPerf Inference 行业标准基准测试中获胜的幕后功臣。 TensorRT-LLM 加速了 用于生成 AI 的最新大型语言模型,性能提高了 8 倍,TCO 降低了 5.3 倍,能耗降低了近 6 倍。


GPT-J 6B 推理性能提高 8 倍

Llama2 推理性能提高 4 倍


总拥有成本

越低越好

耗电量

越低越好



开始使用 NVIDIA TensorRT

 Purchase NVIDIA AI Enterprise

购买 NVIDIA AI Enterprise

购买 NVIDIA AI Enterprise,这是一个端到端 AI 软件平台,包括 TensorRT 和 TensorRT-LLM,用于任务关键型 AI 推理,并提供企业级安全性、稳定性、可管理性和支持。

申请 90 天 NVIDIA AI 企业评估许可证 联系我们了解有关购买TensorRT 的更多信息
 Purchase NVIDIA AI Enterprise

下载容器、代码和版本

TensorRT 可作为多个不同平台上的二进制文件,或作为 NVIDIA NGC™ 上的容器。 TensorRT 还集成到 PyTorch TensorFlow Triton 推理服务器 的 NGC 容器中。

下载 TensorRT 从 NGC 中拉取 TensorRT 容器 访问 TensorRT-LLM 存储库 访问更多开发资源

加速各种推理平台

TensorRT 可以优化应用程序并将其部署到数据中心以及嵌入式和汽车环境。它为 NVIDIA TAO NVIDIA DRIVE™ NVIDIA Clara™ NVIDIA Jetpack™ 等关键 NVIDIA 解决方案提供支持。

TensorRT 还集成了特定于应用程序的 SDK,例如 NVIDIA DeepStream NVIDIA Riva NVIDIA Merlin™ NVIDIA Maxine™ NVIDIA Morpheus NVIDIA Broadcast Engine ,为开发人员提供部署智能视频分析、语音 AI、推荐系统的统一路径系统、视频会议、基于 AI 的网络安全以及生产中的流媒体应用程序。

NVIDIA TensorRT accelerates every inference platform.

支持主要框架

TensorRT 与 PyTorch 和 TensorFlow 集成,因此您只需一行代码即可将推理速度提高 6 倍。如果您在专有或自定义框架中执行深度学习训练,请使用TensorRT C++ API 导入和加速您的模型。请阅读 TensorRT 文档 了解详情。

以下是一些集成以及有关如何开始的信息。

PyTorch

只需一行代码即可使用新的 Torch-TensorRT 集成加速 PyTorch 模型。在熟悉的 PyTorch 环境中使用 TensorRT 优化,推理速度提高 6 倍。

了解详情

TensorFlow

TensorRT 和 TensorFlow 紧密集成,因此您可以通过 TensorRT 的强大优化获得 TensorFlow 的灵活性,例如使用一行代码将性能提高 6 倍。

了解详情

ONNX

TensorRT 提供了 ONNX 解析器,因此您可以轻松地将 ONNX 模型从流行框架导入到 TensorRT 中。它还与 ONNX 运行时集成,提供了一种以 ONNX 格式实现高性能推理的简单方法。

了解详情

MATLAB

MATLAB 通过 GPU Coder 与 TensorRT 集成,因此您可以自动为 NVIDIA Jetson™ NVIDIA DRIVE 和数据中心平台生成高性能推理引擎。

了解详情

阅读成功案例

Learn how NVIDIA TensorRT supports Amazon.
amazon logo

了解 Amazon 如何通过将推理速度提高 5 倍来提高客户满意度。

了解详情
Learn how NVIDIA TensorRT supports AMEX.
american express logo

美国运通通过以 50 倍的速度分析数千万笔日常交易来改进欺诈检测。了解如何。

了解详情
Learn how NVIDIA TensorRT supports Zoox.
zoox logo

探索机器人出租车初创公司 Zoox 如何使用 TensorRT 将其感知堆栈加速 19 倍,以对自动驾驶车辆进行实时推理。

了解详情

被各行业广泛采用

NVIDIA TensorRT is widely adopted by top companies across industries

TensorRT 资源

阅读 TensorRT 介绍性博客

了解如何应用 TensorRT 优化并将 PyTorch 模型部署到 GPU。

阅读博客

观看 GTC 点播 TensorRT 会议

从 GTC 精选的网络研讨会列表中了解有关 TensorRT 及其新功能的更多信息。

观看会议

获取介绍性开发人员指南

在此分步开发人员和 API 参考指南中了解如何开始使用TensorRT。

阅读指南

随时了解 NVIDIA 的最新推理新闻。

注册