NVIDIA TensorRT LLM
NVIDIA TensorRT™ LLM 是一款开源库,旨在为 NVIDIA GPU 上的大型语言模型(LLMs)提供高性能、实时推理优化,无论是在桌面环境还是数据中心均适用。它包含模块化的 Python 运行时环境、支持 PyTorch 原生的模型创作功能,以及稳定的生产环境 API。TensorRT LLM 针对 NVIDIA 平台进行了特别定制,帮助开发者最大化推理性能,实现更多用户并行服务,同时降低运营成本,提供极致快速的体验。
TensorRT LLM 的工作原理
最新的 TensorRT LLM 架构专门为简化开发者体验而设计——支持更快的迭代和更加顺畅的部署,同时保持行业领先的推理性能。该架构提供易用的 Python API、简洁的命令行工具(CLI)、PyTorch 原生模型创作能力以及可扩展的 Python 框架,助力创新。
TensorRT LLM 针对 NVIDIA 平台进行了深度硬件软件协同优化,实现了极致的推理效率和速度。其针对 NVIDIA 硬件特别设计的内核可发挥常见 LLM 推理操作的峰值性能,运行时优化提升 GPU 利用率和终端响应速度。核心优化包括 FP8 和 NVFP4 量化、分布式服务(disaggregated serving)、并行技术(包括宽专家并行 EP)以及先进的推测解码技术,如 EAGLE-3 和多标记预测(multi-token prediction)
开始使用 TensorRT LLM
主要特性
Python 中内置的模块化运行时
TensorRT LLM 采用模块化设计,易于修改。其 PyTorch 原生架构允许开发者试验运行时或扩展功能。一些热门模型也是预定义的,可以使用原生 PyTorch 代码进行定制,从而轻松地根据特定需求调整系统。
基于 PyTorch 的模型创作,用于 Stable LLM API
基于 PyTorch 构建,TensorRT LLM 提供了一个高级的 Python LLM API 支持从单 GPU 到多 GPU 和多节点部署的各种推理设置。它包括对各种并行策略和高级功能的内置支持。LLM API 与更广泛的推理生态系统无缝集成,包括NVIDIA Dynamo。
先进的优化
TensorRT LLM 提供先进的优化功能,包括自定义注意力内核、动态批处理、分页键值 (KV) 缓存、量化 ( FP8、FP4、INT4 AWQ、INT8 SmoothQuant) 、预测解码等,可在 NVIDIA GPU 上高效执行推理。
入门套件
加速计算中心
在 PyTorch 后端添加新模型( GitHub)
在 Google Vertex AI 上使用新的 NVIDIA TensorRT LLM 容器优化 LLM 服务( Google Cloud 文章)
基准测试和性能调优 LLM
性能调优指南( GitHub)
trtllm-bench 文档TensorRT LLM 基准测试页面( GitHub)
性能分析(GitHub) 使用 NVIDIA Nsight™ 系统分析模型执行
如何运行 TensorRT LLM 测试( GitHub)
学习资源库
生态系统
TensorRT LLM 在各行各业中得到广泛应用。
更多资源
伦理 AI
NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持开发各种 AI 应用。根据我们的服务条款下载或使用时,开发者应与其支持的模型团队合作,确保此模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。
有关此模型的伦理考虑的详细信息,请参阅模型卡++中的可解释性、偏见、安全与保障以及隐私子卡。有关报告安全漏洞或 NVIDIA AI 相关问题,请访问这里。
立即开始使用 TensorRT LLM。