Advanced Technical
2025年 12月 4日
NVIDIA CUDA 13.1 引入 NVIDIA CUDA Tile 等新功能,为下一代 GPU 编程提供更强动力
NVIDIA CUDA 13.1 是自 CUDA 二十年前发明以来,规模最大、内容最全面的一次更新。 最新的版本包含一系列新功能与改进,
1 MIN READ
2025年 11月 24日
模型量化:核心概念、实现方法与关键作用
随着 AI 模型日益复杂,往往超出可用硬件的承载能力,量化技术已成为应对这一挑战的关键手段,使资源密集型模型得以在受限的硬件上运行。
5 MIN READ
2025年 11月 10日
生成式 AI 超分辨率利用可扩展的低计算模型加速天气预报
随着AI在天气和气候预测模型中的广泛应用,NVIDIA Earth-2平台提供了基于GPU优化的软件堆栈,以及用于加速解决方案的库和工具。
4 MIN READ
2025年 11月 10日
在 NVIDIA NCCL 2.28 中使用新的 Device API 和基于拷贝引擎的集合通信实现通信和计算的融合
NVIDIA 集合通信库(NCCL)的最新版本引入了突破性的通信与计算融合技术,可显著提升多 GPU 和多节点系统中的通信吞吐量,降低延迟,
3 MIN READ
2025年 9月 9日
如何利用跨区域 (Scale-Across) 网络将分布式数据中心连接成大型 AI 工厂
AI 技术日益复杂,训练与推理领域的新进展对数据中心提出了更高的要求。尽管数据中心的功能正在迅速扩展,但其基础设施受限于基本的物理条件,
1 MIN READ
2025年 8月 21日
更少的编码,更多的科学:借助 OpenACC 和统一内存简化 GPU 上的海洋建模
NVIDIA HPC SDK v25.7 为采用 GPU 加速的高性能计算(HPC)应用开发者带来了重大突破。
3 MIN READ
2025年 8月 13日
使用 ProRL v2 通过长时间训练扩展 LLM 强化学习
目前,AI 领域最引人注目的问题之一是大型语言模型 (LLM) 是否可以通过持续强化学习 (RL) 继续改进,或者其能力是否最终会达到顶峰。
4 MIN READ
2025年 8月 7日
在单个 NVIDIA Grace Hopper 超级芯片上使用 XGBoost 3.0 训练 TB 级数据集
梯度提升决策树 (GBDT) 驱动着从实时欺诈过滤到 PB 级需求预测的各种功能。由于其先进的准确性、
2 MIN READ
2025年 8月 4日
NVIDIA CUDA-Q 0.12 扩展了用于开发硬件性能量子应用的工具集
NVIDIA CUDA-Q 0.12 引入了新的仿真工具,可加速研究人员开发量子应用和设计高性能量子硬件。 借助新的 API,
2 MIN READ
2025年 8月 1日
通过训练后量化优化 LLM 的性能和准确性
量化是开发者的核心工具,旨在以最小的开销来提高推理性能。通过以可控的方式降低模型精度,无需重新训练,该技术可显著降低延迟、
4 MIN READ
2025年 7月 23日
PDF 数据提取方法及其在信息检索中的应用
PDF 是共享财务报告、研究论文、技术文档和营销材料等信息的常用文件格式之一。然而,在构建有效的检索增强生成 (RAG) 系统时,
4 MIN READ
2025年 7月 16日
CUTLASS:基于张量和空间微核处理多维数据的原理抽象
在生成式 AI 时代,充分发挥 GPU 的潜力对于训练更好的模型和大规模服务用户至关重要。通常,
4 MIN READ
2025年 7月 2日
通过低精度量化优化用于图像编辑的 FLUX.1 Kontext
FLUX.1 Kontext 是 Black Forest Labs 最近发布的模型,是对社区图像生成模型的一项令人着迷的补充。
3 MIN READ
2025年 6月 9日
借助 EoRA 快速恢复 LLM 压缩错误的免微调方法
模型压缩技术已经过广泛探索,可减少为大语言模型 (LLM) 或其他大型神经网络提供服务所需的计算资源。 但是,与未压缩的模型相比,
5 MIN READ
2025年 5月 27日
在 NVIDIA Grace Hopper 上训练大型语言模型的高级优化策略
虽然分析有助于识别效率低下的情况,但高级优化策略对于解决硬件限制和有效扩展 AI 工作负载至关重要。在本文中,我们将探讨 CPU 卸载、
3 MIN READ
2025年 5月 22日
特级大师专业提示:使用 cuML 通过堆叠夺得 Kaggle 竞赛冠军
堆叠是一种先进的表格数据建模技术,通过结合多个不同模型的预测来实现高性能。利用 GPU 的计算速度,可以高效地训练大量模型。
2 MIN READ