NVIDIA TensorRT LLM

NVIDIA TensorRT™ LLM 是一款开源库,旨在为 NVIDIA GPU 上的大型语言模型(LLMs)提供高性能、实时推理优化,无论是在桌面环境还是数据中心均适用。它包含模块化的 Python 运行时环境、支持 PyTorch 原生的模型创作功能,以及稳定的生产环境 API。TensorRT LLM 针对 NVIDIA 平台进行了特别定制,帮助开发者最大化推理性能,实现更多用户并行服务,同时降低运营成本,提供极致快速的体验。

前往 NVIDIA NGC 下载在 Github 上下载阅读快速入门指南


TensorRT LLM 的工作原理

最新的 TensorRT LLM 架构专门为简化开发者体验而设计——支持更快的迭代和更加顺畅的部署,同时保持行业领先的推理性能。该架构提供易用的 Python API、简洁的命令行工具(CLI)、PyTorch 原生模型创作能力以及可扩展的 Python 框架,助力创新。

TensorRT LLM 针对 NVIDIA 平台进行了深度硬件软件协同优化,实现了极致的推理效率和速度。其针对 NVIDIA 硬件特别设计的内核可发挥常见 LLM 推理操作的峰值性能,运行时优化提升 GPU 利用率和终端响应速度。核心优化包括 FP8 和 NVFP4 量化、分布式服务(disaggregated serving)、并行技术(包括宽专家并行 EP)以及先进的推测解码技术,如 EAGLE-3 和多标记预测(multi-token prediction)


开始使用 TensorRT LLM

安装指南

使用 pip install 或从源代码构建,在 Linux 上安装 TensorRT LLM。

获取 TensorRT LLM 容器

借助 NVIDIA NGC™ 上免费提供的容器,您可以在云环境中轻松使用 TensorRT LLM 进行构建。

API 快速入门指南

使用 LLM API 快速进行设置并开始优化推理。


主要特性

Python 中内置的模块化运行时

TensorRT LLM 采用模块化设计,易于修改。其 PyTorch 原生架构允许开发者试验运行时或扩展功能。一些热门模型也是预定义的,可以使用原生 PyTorch 代码进行定制,从而轻松地根据特定需求调整系统。

基于 PyTorch 的模型创作,用于 Stable LLM API

基于 PyTorch 构建,TensorRT LLM 提供了一个高级的 Python LLM API 支持从单 GPU 到多 GPU 和多节点部署的各种推理设置。它包括对各种并行策略和高级功能的内置支持。LLM API 与更广泛的推理生态系统无缝集成,包括NVIDIA Dynamo

先进的优化

TensorRT LLM 提供先进的优化功能,包括自定义注意力内核、动态批处理、分页键值 (KV) 缓存、量化 ( FP8、FP4、INT4 AWQ、INT8 SmoothQuant) 、预测解码等,可在 NVIDIA GPU 上高效执行推理。


入门套件


学习资源库

Documentation

TensorRT 文档

探索 TensorRT 的快速入门指南、安装指南、版本说明、支持矩阵等。

Tech Blog

NVIDIA TensorRT 开发者指南

TensorRT

请参阅此开发者和 API 参考分步指南,了解如何开始使用 TensorRT。

Sample App

TensorRT LLM GitHub 资源库

TensorRT LLM GitHub 资源库

访问 TensorRT LLM,这是一个易于使用的 Python API,用于定义 LLM 和构建 TensorRT 引擎,其中包含先进的优化,可在 NVIDIA GPU 上高效执行推理。

Modal

TensorRT LLM 开发

TensorRT LLM 为用户提供易于使用的 Python API 来定义 LLM,并支持先进的优化,从而在 NVIDIA GPU 上高效执行推理。

Tech Blog

使用 NVIDIA NeMo 和 NVIDIA TensorRT Model Optimizer 对 LLM 进行训练后量化

NeMo | TensorRT | TensorRT LLM

随着 LLM 变得越来越大,提供易于使用和 … 变得越来越重要。

Tech Blog

LLM 推理基准测试:使用 TensorRT LLM 进行性能调优

这是大语言模型延迟 - 吞吐量基准测试系列的第三篇博文,旨在指导开发者如何对 LLM 推理进行基准测试。

Sample App

Windows 参考项目中的 RAG 聊天机器人

一个开发者参考项目,用于在 Windows 上使用 TensorRT LLM 创建检索增强生成 (RAG) 聊天机器人。

Modal

Dynamo Tensorrt-LLM gpt-oss

此容器镜像为 Dynamo 的分布式推理框架提供可随时部署的运行时,该框架专为兼容 OpenAI 的模型 (gpt-oss) 而构建。

Modal

Llama 2 7B 聊天 (TensorRT LLM)

NVIDIA 产品

Llama 2 是一个大语言 AI 模型,由一系列能够根据提示生成文本和代码的模型组成。

Modal

Gemma 2B Instruct ( TensorRT LLM)

Gemma-2B 是 Google Gemma 系列模型中包含 25 亿个参数的模型。它经过指令调整,因此可以以对话方式响应提示。

Modal

Mistral 7B Instruct ( TensorRT LLM)

Mistral-7B-Instruct 是一种语言模型,可以遵循指令、完成请求并生成创意文本格式。

Modal

Phi-2 ( TensorRT LLM)

Phi-2 是由微软研究院开发的具有 27 亿参数的语言模型。Phi-2 模型最适合使用问答 (QA) 、聊天格式和代码格式的提示。


生态系统

TensorRT LLM 在各行各业中得到广泛应用。

TensorRT LLM Ecosystem Partner- AWS
TensorRT LLM Ecosystem Partner- Baseten
TensorRT LLM Ecosystem Partner- Deci
TensorRT LLM Ecosystem Partner- DeepInfra
TensorRT LLM Ecosystem Partner - Grammarly
TensorRT LLM Ecosystem Partner - Google Cloud
TensorRT LLM Ecosystem Partner- Microsoft
TensorRT LLM Ecosystem Partner - OctoML
TensorRT LLM Ecosystem Partner - Tabnine

更多资源

NVIDIA Tech Blog

阅读博客

NVIDIA Training and Certification

获取培训和认证

Explore Features and Bug Fixes on GitHub

探索 GitHub 上的功能和问题修复

NVIDIA Developer Newsletter

注册 CUDA 开发者时事通讯

NVIDIA TensorRT LLM FAQ

阅读常见问题解答

Join the NVIDIA Developer Program

加入 NVIDIA 开发者计划


伦理 AI

NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持开发各种 AI 应用。根据我们的服务条款下载或使用时,开发者应与其支持的模型团队合作,确保此模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。

有关此模型的伦理考虑的详细信息,请参阅模型卡++中的可解释性、偏见、安全与保障以及隐私子卡。有关报告安全漏洞或 NVIDIA AI 相关问题,请访问这里

立即开始使用 TensorRT LLM。

立即下载