Advanced Technical

2026年 3月 5日

在 NVIDIA CUDA Tile 中调整 Flash Attention 以实现峰值性能

在本文中，我们将深入探讨现代 AI 中至关重要的工作负载之一：Flash Attention，您将了解：环境要求：

9 MIN READ

2026年 2月 27日

借助 NVIDIA Run:ai 与 NVIDIA NIM 充分释放 GPU 性能潜力

部署 LLM 的组织面临着推理工作负载的挑战，这些工作负载具有差异化的资源需求。小型嵌入模型可能仅需几 GB 的 GPU 显存，

4 MIN READ

2026年 1月 30日

使用通用稀疏张量建立可扩展的稀疏生态系统

稀疏张量是向量、矩阵以及高维数组在包含大量零元素情况下的推广形式。由于其在存储、计算和功耗方面的高效性，稀疏张量在科学计算、

5 MIN READ

2026年 1月 13日

了解 NVIDIA cuOpt 如何通过原始启发式算法加速混合整数优化

NVIDIA cuOpt 是一款 GPU 加速的优化引擎，旨在为大规模复杂决策问题提供高效、高质量的解决方案。混合整数规划（MIP）…

2 MIN READ

2025年 12月 16日

cuQuantum SDK v25.11 中的先进大规模量子模拟技术

随着量子处理器 (QPU) 性能的提升，模拟大规模量子计算机变得愈发困难。验证结果是确保在设备规模超出经典可模拟范围后，

4 MIN READ

2025年 12月 4日

NVIDIA CUDA 13.1 引入 NVIDIA CUDA Tile 等新功能，为下一代 GPU 编程提供更强动力

NVIDIA CUDA 13.1 是自 CUDA 二十年前发明以来，规模最大、内容最全面的一次更新。最新的版本包含一系列新功能与改进，

1 MIN READ

2025年 11月 24日

模型量化：核心概念、实现方法与关键作用

随着 AI 模型日益复杂，往往超出可用硬件的承载能力，量化技术已成为应对这一挑战的关键手段，使资源密集型模型得以在受限的硬件上运行。

5 MIN READ

2025年 11月 10日

生成式 AI 超分辨率利用可扩展的低计算模型加速天气预报

随着AI在天气和气候预测模型中的广泛应用，NVIDIA Earth-2平台提供了基于GPU优化的软件堆栈，以及用于加速解决方案的库和工具。

4 MIN READ

2025年 11月 10日

在 NVIDIA NCCL 2.28 中使用新的 Device API 和基于拷贝引擎的集合通信实现通信和计算的融合

NVIDIA 集合通信库（NCCL）的最新版本引入了突破性的通信与计算融合技术，可显著提升多 GPU 和多节点系统中的通信吞吐量，降低延迟，

3 MIN READ

2025年 9月 9日

如何利用跨区域 (Scale-Across) 网络将分布式数据中心连接成大型 AI 工厂

AI 技术日益复杂，训练与推理领域的新进展对数据中心提出了更高的要求。尽管数据中心的功能正在迅速扩展，但其基础设施受限于基本的物理条件，

1 MIN READ

2025年 8月 21日

更少的编码，更多的科学：借助 OpenACC 和统一内存简化 GPU 上的海洋建模

NVIDIA HPC SDK v25.7 为采用 GPU 加速的高性能计算（HPC）应用开发者带来了重大突破。

3 MIN READ

2025年 8月 13日

使用 ProRL v2 通过长时间训练扩展 LLM 强化学习

目前，AI 领域最引人注目的问题之一是大型语言模型 (LLM) 是否可以通过持续强化学习 (RL) 继续改进，或者其能力是否最终会达到顶峰。

4 MIN READ

2025年 8月 7日

在单个 NVIDIA Grace Hopper 超级芯片上使用 XGBoost 3.0 训练 TB 级数据集

梯度提升决策树 (GBDT) 驱动着从实时欺诈过滤到 PB 级需求预测的各种功能。由于其先进的准确性、

2 MIN READ

2025年 8月 4日

NVIDIA CUDA-Q 0.12 扩展了用于开发硬件性能量子应用的工具集

NVIDIA CUDA-Q 0.12 引入了新的仿真工具，可加速研究人员开发量子应用和设计高性能量子硬件。借助新的 API，

2 MIN READ

2025年 8月 1日

通过训练后量化优化 LLM 的性能和准确性

量化是开发者的核心工具，旨在以最小的开销来提高推理性能。通过以可控的方式降低模型精度，无需重新训练，该技术可显著降低延迟、

4 MIN READ

2025年 7月 23日

PDF 数据提取方法及其在信息检索中的应用

PDF 是共享财务报告、研究论文、技术文档和营销材料等信息的常用文件格式之一。然而，在构建有效的检索增强生成 (RAG) 系统时，

4 MIN READ