推理性能
2026年 3月 23日
在 Kubernetes 上部署解 LLM 推理工作负载
随着大语言模型 (LLM) 推理工作负载的复杂性不断增加,单个单一的服务进程开始达到其极限。预填充和解码阶段具有截然不同的计算配置文件,
4 MIN READ
2026年 2月 27日
借助 NVIDIA Run:ai 与 NVIDIA NIM 充分释放 GPU 性能潜力
部署 LLM 的组织面临着推理工作负载的挑战,这些工作负载具有差异化的资源需求。小型嵌入模型可能仅需几 GB 的 GPU 显存,
4 MIN READ
2026年 2月 18日
在 NVIDIA Run:ai 中利用 GPU 解锁大规模 Token 吞吐能力
随着 AI 工作负载的扩展,实现高吞吐量、高效资源利用和可预测的延迟变得愈发关键。 NVIDIA Run:ai 通过智能调度和动态 GPU…
4 MIN READ
2026年 2月 9日
借助 NVIDIA TensorRT LLM AutoDeploy 实现推理优化自动化
NVIDIA TensorRT LLM 使开发者能够为大语言模型 (LLM) 构建高性能推理引擎,但传统上部署新架构往往需要大量手动工作。
3 MIN READ
2026年 1月 26日
NVIDIA TensorRT for RTX 中的自适应推理可实现自动优化
传统上,在各种消费级硬件中部署 AI 应用需要进行权衡。可以针对特定 GPU 配置进行优化,以牺牲便携性为代价来提升性能;
3 MIN READ
2026年 1月 8日
NVIDIA TensorRT Edge-LLM 加速汽车与机器人领域的 LLM 和 VLM 推理
大语言模型(LLM)与多模态推理系统正迅速突破数据中心的局限。越来越多的汽车与机器人领域的开发者希望将对话式 AI 智能体、
2 MIN READ
2025年 12月 16日
使用 Skip Softmax 加速 NVIDIA TensorRT-LLM 中的长上下文推理
对于大规模部署 LLM 的机器学习工程师来说,这个等式既熟悉又无情:随着上下文长度的增加,注意力计算成本呈爆炸式增长。
4 MIN READ