1. [主题](/topics/)

[AI 推理](/topics/ai/ai-inference/)

TensorRT  

# NVIDIA TensorRT

NVIDIA® TensorRT™ 是一个工具生态系统，可供开发者实现高性能深度学习推理。TensorRT 包括推理编译器、运行时和模型优化，可为生产应用提供低延迟和高吞吐量。TensorRT 生态系统包括 TensorRT 编译器、TensorRT-LLM、TensorRT Model Optimizer 和 TensorRT Cloud。

[立即下载](/nvidia-tensorrt-download)[文档  
](https://docs.nvidia.com/deeplearning/tensorrt/)[论坛  
](https://github.com/NVIDIA/TensorRT)

* * *

## TensorRT 的工作原理

与仅使用 CPU 的平台相比，推理速度提高了 36 倍。

TensorRT 基于 NVIDIA® CUDA® 并行编程模型构建，包含用于优化在所有主要框架上训练的神经网络模型的库，对这些模型进行高精度校正以获得较低的精度，并将其部署到超大规模数据中心、工作站、笔记本电脑和边缘设备。TensorRT 使用量化、层和张量融合以及内核调优等技术来优化推理。  
  
TensorRT 为使用量化感知训练技术训练的模型提供训练后量化和支持，以优化深度学习推理的 FP8、FP4 和整数格式。推理精度的降低可显著降低延迟，满足许多实时服务以及自主和嵌入式应用程序的需求。

 ![](https://developer.download.nvidia.com/images/tensorrt/how-tensor-rt-works.jpg?1)

### 阅读 TensorRT 入门博客  

了解如何应用 TensorRT 优化并将 PyTorch 模型部署到 GPU。

[阅读博客](/zh-cn/blog/speeding-up-deep-learning-inference-using-tensorrt-updated/)

### 观看 GTC 大会上的 TensorRT 点播会议  

查看 GTC 在线研讨会精选列表，详细了解 TensorRT 及其功能。

[观看会议](https://www.nvidia.cn/on-demand/playlist/playList-53110dbc-c11d-4619-b821-987015090afa/)

### 获取完整的开发者指南  

请参阅此开发者和 API 参考分步指南，了解如何开始使用 TensorRT。

[阅读指南](https://docs.nvidia.com/deeplearning/tensorrt/developer-guide/index.html)

### 浏览 AI 基础架构和性能  

阅读我们的电子书，了解如何降低每个令牌的成本，并充分利用您的 AI 模型。

[查看电子书](https://www.nvidia.cn/solutions/ai/inference/balancing-cost-latency-and-performance-ebook/)

* * *

## 主要特性

### 大语言模型推理  

[NVIDIA TensorRT-LLM](/zh-cn/blog/optimizing-inference-on-llms-with-tensorrt-llm-now-publicly-available/) 是一个开源库，可通过简化的 Python API 在 NVIDIA AI 平台上加速和优化大语言模型 (LLM) 的推理性能。  
  
开发者可在数据中心或工作站中的 NVIDIA GPU 上加速 LLM 性能，包括[原生 Windows 上的 NVIDIA RTX™ 系统 – 具有相同的无缝工作流](https://blogs.nvidia.com/blog/2023/10/17/tensorrt-llm-windows-stable-diffusion-rtx/)。

### 在云端编译  

NVIDIA TensorRT Cloud 是一项以开发者为中心的服务，可针对给定的限制条件和 KPI 生成超优化引擎。鉴于 LLM 和推理吞吐量/ 延迟要求，开发者可以使用命令行界面调用 TensorRT Cloud 服务，为目标 GPU 超优化 TensorRT-LLM 引擎。云服务将自动确定满足要求的最佳引擎配置。开发者还可以在各种 NVIDIA RTX、GeForce、Quadro® 或 Tesla® 级 GPU 上使用 ONNX 模型构建经优化的 TensorRT 引擎。TensorRT Cloud 面向特定合作伙伴提供有限访问权限。[申请](/tensorrt-cloud-program)需要获得批准才能访问。

### 优化神经网络  

[NVIDIA TensorRT 模型优化器](/zh-cn/blog/accelerate-generative-ai-inference-performance-with-nvidia-tensorrt-model-optimizer-now-publicly-available/) 是先进模型优化技术 (包括量化、稀疏和蒸馏) 的统一库。它为 TensorRT-LLM 和 TensorRT 等下游部署框架压缩深度学习模型，以高效优化 NVIDIA GPU 上的推理。

### 主要框架集成  

TensorRT 直接集成到 [PyTorch](/blog/accelerating-inference-up-to-6x-faster-in-pytorch-with-torch-tensorrt/)以及 [Hugging Face](http://hf.co/blog/optimum-nvidia) 只需一行代码即可将推理速度提高 6 倍。TensorRT 提供了一个 ONNX 解析器来导入[ONNX](https://github.com/NVIDIA/TensorRT/blob/release/10.9/quickstart/IntroNotebooks/2.%20Using%20PyTorch%20through%20ONNX.ipynb) 将热门框架中的模型导入 TensorRT。[MATLAB](https://www.mathworks.com/help/gpucoder/ug/tensorrt-target.html) 通过 GPU Coder 与 TensorRT 集成，自动为 NVIDIA Jetson™、NVIDIA DRIVE® 和数据中心平台生成高性能推理引擎。

### 使用 Triton 进行部署、运行和扩展  

使用 TensorRT 优化的模型进行部署、运行和扩展[NVIDIA Triton](https://www.nvidia.com/en-us/ai-data-science/products/triton-inference-server/)\* 将 TensorRT 作为后端的推理服务软件。使用 Triton 的优势包括动态批处理、并发模型执行、模型集成以及流式传输音频和视频输入的高吞吐量。

### 加速每个推理平台  

TensorRT 可以针对边缘、笔记本电脑和台式机以及数据中心的应用优化模型。它为主要的 NVIDIA 解决方案 (例如 NVIDIA TAO、NVIDIA DRIVE、NVIDIA Clara™ 和 NVIDIA JetPack™) 提供支持，并与特定应用的 SDK (例如 NVIDIA NIM™、NVIDIA DeepStream、NVIDIA® Riva、NVIDIA Merlin™、NVIDIA Maxine™、NVIDIA Morpheus 和 NVIDIA Broadcast Engine) 集成。  
  
TensorRT 为开发者提供了在生产环境中部署智能视频分析、语音 AI、推荐系统、视频会议、基于 AI 的网络安全和流式传输应用的统一路径。

* * *

## 开始使用 TensorRT  

TensorRT 是一个用于高性能深度学习推理的 API 生态系统。

 ![TensorRT speeds up inference by 36X](https://developer.download.nvidia.com/icons/m48-download.svg)
### 下载 TensorRT

TensorRT 推理库提供通用 AI 编译器和推理运行时，可为生产应用提供低延迟和高吞吐量。

[下载 SDK](/zh-cn/blog/speeding-up-deep-learning-inference-using-tensorrt-updated/)

[下载容器](/zh-cn/blog/speeding-up-deep-learning-inference-using-tensorrt-updated/)

[文档](https://docs.nvidia.com/deeplearning/tensorrt/)

 ![TensorRT speeds up inference by 36X](https://developer.download.nvidia.com/icons/m48-download.svg)
### 下载 TRT-LLM

TensorRT-LLM 可在 [GitHub](https://github.com/NVIDIA/TensorRT-LLM/tree/rel) 下载。

[下载 (GitHub)](https://github.com/NVIDIA/TensorRT-LLM/tree/rel)

[文档](https://nvidia.github.io/TensorRT-LLM)

 ![TensorRT speeds up inference by 36X](https://developer.download.nvidia.com/icons/m48-download.svg)
### 下载 TensorRT Model Optimizer

TensorRT Model Optimizer (模型优化器) 可在 NVIDIA PyPI 上免费使用，并在 [GitHub](https://github.com/NVIDIA/TensorRT-Model-Optimizer) 上提供示例和方法。

[下载 (GitHub)](https://github.com/NVIDIA/TensorRT-Model-Optimizer)

[文档](https://nvidia.github.io/TensorRT-Model-Optimizer)

* * *

## 开始使用 TensorRT 框架  

TensorRT 框架将 TensorRT 编译器功能添加到 PyTorch 等框架中。

 ![TensorRT speeds up inference by 36X](https://developer.download.nvidia.com/icons/m48-download.svg)
### 下载 ONNX 和 Torch-TensorRT

TensorRT 推理库提供通用 AI 编译器和推理运行时，可为生产应用提供低延迟和高吞吐量。

**ONYX：**

[文档](https://github.com/NVIDIA/TensorRT/blob/release/10.9/quickstart/IntroNotebooks/2.%20Using%20PyTorch%20through%20ONNX.ipynb)

**Torch-TensorRT：**

[下载容器](https://catalog.ngc.nvidia.com/orgs/nvidia/containers/pytorch)

[文档](https://pytorch.org/TensorRT/)

 ![TensorRT speeds up inference by 36X](https://developer.download.nvidia.com/icons/m48-accellerated-computing-with-cuda-python-256px-blk.png)
### 体验棘手：使用 TensorRT 进行 Pythonic 推理

通过 Tripy 体验高性能推理和出色的易用性。通过直观的 API、即时模式的轻松调试、清晰的错误消息和一流的文档来简化深度学习部署。

[文档](https://nvidia.github.io/TensorRT-Incubator/index.html)

[示例](https://github.com/NVIDIA/TensorRT-Incubator/tree/main/tripy/examples)

[贡献](https://github.com/NVIDIA/TensorRT-Incubator/blob/main/tripy/CONTRIBUTING.md)

 ![TensorRT speeds up inference by 36X](https://developer.download.nvidia.com/icons/m48-digital-deep-learning-institute-talks-training.svg)
### 部署

获取免费许可证，使用现有基础架构在生产环境中试用 [NVIDIA AI Enterprise](https://www.nvidia.cn/data-center/products/ai-enterprise/) 90 天。

[申请 90 天许可证](https://enterpriseproductregistration.nvidia.com/?LicType=EVAL&amp;ProductFamily=NVAIEnterprise)

* * *

## 出色的推理性能  

在行业标准的 [MLPerf](https://www.nvidia.com/en-us/data-center/mlperf/) 推理基准测试中，NVIDIA 在所有[推理性能](https://developer.nvidia.com/zh-cn/blog/tag/inference-performance/)测试中均战胜了 TensorRT。TensorRT-LLM 可加速用于[生成式 AI](https://www.nvidia.cn/ai-data-science/generative-ai/) 的最新大语言模型，提供高达 8 倍的性能提升、5.3 倍的 TCO 提升以及近 6 倍的能耗降低。

[查看所有基准测试](/deep-learning-performance-training-inference/ai-inference)

### GPT-J 6B 推理性能提升 8 倍

 ![TensorRT-LLM on H100 has 8X increase in GPT-J 6B inference performance](https://developer.download.nvidia.com/images/gpt-j-6b-630x354-1.jpg)

### Llama2 推理性能提升 4 倍  

 ![TensorRT-LLM on H100 has 4X Higher Llama2 Inference Performance](https://developer.download.nvidia.com/images/llama-2-70b-630x354-1.jpg)

### 总体拥有成本

越低越好

 ![TensorRT-LLM has lower total cost of ownership than GPT-J 6B and Llama 2 70B](https://developer.download.nvidia.com/images/cost-of-ownership-630x354-1.jpg)

### 能源使用

越低越好

 ![TensorRT-LLM has lower energy use than GPT-J 6B and Llama 2 70B](https://developer.download.nvidia.com/images/energy-use-630x354-1.jpg)

* * *

## 入门套件

### TensorRT 初学者指南  

- 

[查看快速入门指南](/tensorrt-getting-started)

- 

[查看快速入门笔记本](https://docs.omniverse.nvidia.com/guide-sdg/latest/index.html)

- 

阅读博客：[使用 NVIDIA TensorRT 加速深度学习推理](/zh-cn/blog/speeding-up-deep-learning-inference-using-tensorrt-updated/)

  

- 

阅读博客：[使用 TensorRT 和 Triton 优化和服务模型](/zh-cn/blog/optimizing-and-serving-models-with-nvidia-tensorrt-and-nvidia-triton/)

  

- 

观看视频：[开始使用 NVIDIA TensorRT](https://images.nvidia.cn/cn/youtube-replicates/SlUouzxBldU.mp4)

  

### TensorRT-LLM 新手指南

- 

[查看快速入门指南](/tensorrt-getting-started)

- 

[查看快速入门笔记本](https://docs.omniverse.nvidia.com/guide-sdg/latest/index.html)

- 

阅读博客：[使用 NVIDIA TensorRT 加速深度学习推理](/zh-cn/blog/speeding-up-deep-learning-inference-using-tensorrt-updated/)

  

- 

阅读博客：[使用 TensorRT 和 Triton 优化和服务模型](/zh-cn/blog/optimizing-and-serving-models-with-nvidia-tensorrt-and-nvidia-triton/)

  

- 

观看视频：[开始使用 NVIDIA TensorRT](https://images.nvidia.cn/cn/youtube-replicates/SlUouzxBldU.mp4)

  

### TensorRT 模型优化器新手指南  

- 

[参考架构](https://docs.omniverse.nvidia.com/simready/latest/sim-needs/synth-data-gen.html)

- 

[工作流指南和文档](https://docs.omniverse.nvidia.com/extensions/latest/ext_product-configurator.html)

- 

[培训课程](https://learn.nvidia.com/courses/course-detail?course_id=course-v1:DLI+S-OV-14+V1)

- 

[适用于精确视觉生成式 AI 的 NVIDIA Omniverse Blueprint](https://build.nvidia.com/nvidia/conditioning-for-precise-visual-generative-ai)

### Torch-TensorRT 初学者指南  

- 

观看视频：[开始使用 NVIDIA Torch-TensorRT](https://images.nvidia.cn/cn/youtube-replicates/TU5BMU6iYZ0.mp4)

  

- 

阅读博客：[在 PyTorch 中将推理速度提升高达 6 倍](/zh-cn/blog/accelerating-inference-up-to-6x-faster-in-pytorch-with-torch-tensorrt/)

  

- 

下载 Notebook：[使用 SSD 进行物体检测](https://github.com/NVIDIA/Torch-TensorRT/blob/master/notebooks/ssd-object-detection-demo.ipynb)( Jupyter Notebook)

  

### TensorRT Pythonic 前端新手指南：Tripy  

- 

[简介指南](https://nvidia.github.io/TensorRT-Incubator/pre0_user_guides/00-introduction-to-tripy.html)

  

- 

[ResNet-50 notebook](https://github.com/NVIDIA/TensorRT-Incubator/blob/main/tripy/notebooks/resnet50.ipynb)

  

- 

[nanoGPT](https://github.com/NVIDIA/TensorRT-Incubator/tree/main/tripy/examples/nanogpt)

  

- 

[分割 Anything 模型 V2](https://github.com/NVIDIA/TensorRT-Incubator/tree/main/tripy/examples/segment-anything-model-v2)

  

* * *

## TensorRT 生态系统

广泛应用于各行各业

 ![NVIDIA TensorRT is widely adopted by top companies across industries](https://d29g4g2dyqv443.cloudfront.net/sites/default/files/akamai/tensorrt/Logo_farm_GTC.png)

* * *

## 更多资源

 ![NVIDIA Developer Forums](https://developer.download.nvidia.com/icons/m48-people-group.svg)
### 探索社区

 ![NVIDIA Training and Certification](https://developer.download.nvidia.com/icons/m48-certification-ribbon-2.svg)
### 获取培训和认证  

 ![NVIDIA Inception Program for Startups](https://developer.download.nvidia.com/images/isaac/m48-ai-startup-256px-blk.png)
### 阅读热门案例和博客

* * *

## 道德 AI

NVIDIA 认为可信 AI 是一项共同责任，我们已制定相关政策和实践，以支持开发各种 AI 应用。根据我们的服务条款下载或使用时，开发者应与其支持的模型团队合作，确保此模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。  
  
有关此模型道德因素的更多详细信息，请参阅模型卡 可解释性、偏差、安全性和隐私子卡。请在[这里](https://www.nvidia.com/en-us/support/submit-security-vulnerability/)报告安全漏洞或 NVIDIA AI 问题。

**立即开始使用 TensorRT，并使用合适的推理工具为任何平台上的任何应用开发 AI。**

[立即下载  
](/tensorrt/download)