AI 推理

2026年 3月 5日

NVIDIA Blackwell 刷新金融领域大模型推理 STAC-AI 历史纪录

大语言模型（LLM）通过精密分析大量非结构化数据，生成切实可行的交易见解，正在重塑金融交易格局。这些先进的 AI 系统能够处理金融新闻、

3 MIN READ

2026年 2月 25日

借助 NVIDIA Blackwell Ultra 提升 Softmax 的效率

LLM 上下文长度呈爆炸式增长，架构正朝着更复杂的注意力机制发展，例如多头潜在注意力（MLA）和分组查询注意力（GQA）。因此，

2 MIN READ

2026年 2月 18日

在 NVIDIA Run:ai 中利用 GPU 解锁大规模 Token 吞吐能力

随着 AI 工作负载的扩展，实现高吞吐量、高效资源利用和可预测的延迟变得愈发关键。 NVIDIA Run:ai 通过智能调度和动态 GPU…

4 MIN READ

2026年 2月 9日

借助 NVIDIA TensorRT LLM AutoDeploy 实现推理优化自动化

NVIDIA TensorRT LLM 使开发者能够为大语言模型 (LLM) 构建高性能推理引擎，但传统上部署新架构往往需要大量手动工作。

3 MIN READ

2026年 1月 26日

NVIDIA TensorRT for RTX 中的自适应推理可实现自动优化

传统上，在各种消费级硬件中部署 AI 应用需要进行权衡。可以针对特定 GPU 配置进行优化，以牺牲便携性为代价来提升性能；

3 MIN READ

2026年 1月 22日

在 NVIDIA Blackwell 数据中心 GPU 上实现 FLUX.2 的 NVFP4 推理扩展

2025 年，NVIDIA 与 Black Forest Labs (BFL) 合作优化 FLUX.1 文本转图像模型系列，

3 MIN READ

2026年 1月 8日

NVIDIA TensorRT Edge-LLM 加速汽车与机器人领域的 LLM 和 VLM 推理

大语言模型（LLM）与多模态推理系统正迅速突破数据中心的局限。越来越多的汽车与机器人领域的开发者希望将对话式 AI 智能体、

2 MIN READ

2026年 1月 6日

NVIDIA BlueField-4 赋能的推理上下文记忆存储平台，引领 AI 迈向新前沿

随着代理式 AI 工作流将上下文窗口扩展到数百万个 token，并将模型规模扩展到数百万亿个参数，AI 原生企业正面临着越来越多的扩展挑战。

1 MIN READ

2025年 12月 16日

使用 Skip Softmax 加速 NVIDIA TensorRT-LLM 中的长上下文推理

对于大规模部署 LLM 的机器学习工程师来说，这个等式既熟悉又无情：随着上下文长度的增加，注意力计算成本呈爆炸式增长。

4 MIN READ

2025年 12月 9日

五大 AI 模型优化技术，实现更快速、更智能的推理

随着 AI 模型规模不断扩大，架构日益复杂，研究人员和工程师正持续探索新技术，以优化 AI 系统在生产环境中的性能并降低总体成本。

2 MIN READ

2025年 12月 8日

使用 NVFP4 KV 缓存优化大批次与长上下文推理

量化是大规模推理中的关键手段之一。通过降低权重、激活值和KV缓存的精度，可以有效减少内存占用和计算开销，从而显著提升推理吞吐量、降低延迟，

3 MIN READ

2025年 11月 10日

如何将数学问题的推理速度提升 4 倍

大语言模型能够解决具有挑战性的数学问题。然而，若要实现其大规模高效运行，仅依靠一个强大的模型检查点还远远不够。

3 MIN READ

2025年 11月 10日

构建可扩展且容错的 NCCL 应用

NVIDIA 集合通信库（NCCL）提供了一套面向低延迟和高带宽通信的集合操作 API，支持 AI 工作负载从单台主机上的少量 GPU…

5 MIN READ

2025年 10月 16日

NVIDIA Blackwell 在 SemiAnalysis InferenceMAX v1 基准测试中取得领先表现

SemiAnalysis 近期推出了 InferenceMAX v1，这是一项全新的开源计划，旨在提供一套全面评估推理硬件性能的方法。

3 MIN READ

2024年 10月 1日

使用 NVIDIA AI 端点和 Ragas 对医疗 RAG 的评估分析

在快速发展的医学领域，尖端技术的集成对于增强患者护理和推进研究至关重要。其中一项创新是检索增强生成（RAG），

3 MIN READ

2024年 9月 18日

使用 NVIDIA NIM 微服务实现语音和翻译功能，快速赋予应用语音能力

NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分，为自行托管的 GPU 加速推理微服务提供容器，用于跨云、

3 MIN READ