TensorRT-LLM
2025年 12月 16日
塑造 2025 年的 AI 工厂、物理 AI 以及模型、智能体和基础设施的进步
对于使用 NVIDIA 技术的开发者和研究人员而言,2025 年是又一个具有里程碑意义的年份。在数据中心功耗与计算设计、AI 基础设施、
3 MIN READ
2025年 12月 16日
使用 Skip Softmax 加速 NVIDIA TensorRT-LLM 中的长上下文推理
对于大规模部署 LLM 的机器学习工程师来说,这个等式既熟悉又无情:随着上下文长度的增加,注意力计算成本呈爆炸式增长。
4 MIN READ
2025年 12月 2日
NVIDIA 加速的 Mistral 3 开源模型,实现多规模下的高效与精准
新的 Mistral 3 开放模型系列为开发者和企业提供了卓越的准确性、高效的性能以及灵活的定制功能。
3 MIN READ
2025年 11月 10日
如何将数学问题的推理速度提升 4 倍
大语言模型能够解决具有挑战性的数学问题。然而,若要实现其大规模高效运行,仅依靠一个强大的模型检查点还远远不够。
3 MIN READ
2025年 10月 28日
释放算力潜能:TensorRT LLM ADP 平衡策略让推理吞吐量再提升 33%
在 DeepSeek MLA + MoE 架构下,在最大吞吐量场景中,通常采用注意力数据并行 (Attention Data…
3 MIN READ
2025年 10月 20日
在 NVL72 机架级系统上使用 Wide Expert Parallelism 扩展大型 MoE 模型
现代 AI 工作负载已远超单 GPU 推理服务的能力范围。模型并行技术通过在多个 GPU 之间高效划分计算任务,
3 MIN READ
2025年 10月 16日
NVIDIA Blackwell 在 SemiAnalysis InferenceMAX v1 基准测试中取得领先表现
SemiAnalysis 近期推出了 InferenceMAX v1,这是一项全新的开源计划,旨在提供一套全面评估推理硬件性能的方法。
3 MIN READ
2025年 9月 22日
DeepSeek R1 MTP 在 TensorRT-LLM 中的实现与优化
TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,
5 MIN READ
2025年 9月 22日
扩展 TensorRT-LLM 中的专家并行度:大规模 EP 的设计与实现
DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。
10 MIN READ
2025年 9月 17日
用于降低 AI 推理延迟的预测性解码简介
使用大语言模型(LLM)生成文本时,通常会面临一个基本瓶颈。尽管 GPU 能够提供强大的计算能力,但由于自回归生成本质上是顺序进行的,
2 MIN READ
2025年 8月 26日
TensorRT-LLM 中的分离式服务
在之前的技术博客中,我们介绍了低延迟和高吞吐场景的优化方法。对于生产部署,用户还关心在满足特定延迟约束的情况下,每个 GPU 的吞吐表现。
3 MIN READ
2025年 8月 22日
NVIDIA 硬件创新和开源贡献正在塑造 AI
Cosmos、DeepSeek、Gemma、GPT-OSS、Llama、Nemotron、Phi、
2 MIN READ
2025年 8月 5日
NVIDIA 从云到边缘加速 OpenAI gpt-oss 模型部署,在 NVIDIA GB200 NVL72 上实现 150 万 TPS 推理
自 2016 年推出 NVIDIA DGX 以来,NVIDIA 与 OpenAI 便开始共同推动 AI 技术的边界。
1 MIN READ
2025年 7月 27日
NVIDIA TensorRT-LLM 支持腾讯混元最新大语言模型 Hunyuan-A13B 推理加速
腾讯混元 (Hunyuan) 最新大语言模型 Hunyuan-A13B 今日发布,NVIDIA TensorRT-LLM 作为全球领先的…
1 MIN READ
2025年 7月 7日
LLM 推理基准测试:使用 TensorRT-LLM 进行性能调优
这是大语言模型延迟 – 吞吐量基准测试系列的第三篇博文,旨在指导开发者如何使用 TensorRT-LLM 对 LLM 推理进行基准测试。
3 MIN READ
2025年 6月 26日
在魔搭社区使用 NVIDIA TensorRT-LLM PyTorch 新架构优化 Qwen3 系列模型推理
摘要: TensorRT-LLM 采用 PyTorch 全新架构进一步优化模型部署流程,提升开发者使用体验。
2 MIN READ