Blackwell

2026年 7月 21日

在 NVIDIA GB300 NVL72 上进行 MoE 预训练创下世界纪录

前沿模型预训练已融合多专家模型 (MoE) ，这从根本上改变了对大规模 AI 训练的限制。随着每 token 的计算量下降，

3 MIN READ

2026年 7月 21日

深入了解 NVIDIA Rubin GPU 架构：助力代理式 AI 时代

最初是离散 AI 模型训练和面向人类的聊天界面，后来演变为始终在线的 AI 工厂，致力于大规模生产智能。现在，

4 MIN READ

2026年 7月 14日

排行榜上的经验教训：5000+ Kagglers 教我们如何改进 AI 推理

NVIDIA Nemotron 模型推理挑战赛邀请了 Kaggle 社区探讨一个重点问题：当每个人都从相同的开放模型、基准测试、

2 MIN READ

2026年 7月 10日

借助主机卸载减少基于 JAX 的 LLM 训练中的高带宽内存瓶颈

在充分利用计算能力之前，大语言模型 (LLM) 训练工作负载越来越多地遇到 GPU 显存限制。模型权重、梯度、优化器状态、

3 MIN READ

2026年 7月 10日

AI 模型协同设计：硬件友好型 LLM 设计

AI 性能可归结为三个维度：部署必须平衡这三者：如果响应速度缓慢，就会浪费高准确度；如果每个用户的体验滞后，则原始吞吐量就意味着微不足道。

5 MIN READ

2026年 7月 9日

针对大规模分子动力学的 GPU 主动通信实用指南

分子动力学 (MD) 模拟是计算科学领域要求最严苛的工作负载之一。使用它们，研究人员可以非常详细地观察原子行为，从蛋白质折叠到药物和材料发现。

8 MIN READ

2026年 7月 6日

使用 Noniform Tensor Parallelism 提高大规模 LLM 训练的效率

大规模训练 LLM 会带来独特的基础架构挑战，尤其是在作业跨越数千个 GPU 并长时间运行的情况下。这些作业运行的时间越长，

2 MIN READ

2026年 7月 2日

基于硬件的 AI 安全性不会拖慢您的速度

AI 改变了组织的运营方式，推动了前所未有的生产力和创新水平。但是，数据隐私、主权以及如何保护使用中的数据，

2 MIN READ

2026年 6月 24日

加速 NVIDIA GPU 上用于物理 AI 应用的 BEV 池化

鸟瞰图 (BEV) 感知是智能汽车 (智能汽车) 、机器人和空间 AI 系统日益常见的设计模式。

5 MIN READ

2026年 6月 23日

通过全栈推理和训练优化，更大限度地提高 AI 工厂的能效

为运行 AI 工厂，电力成本可占运营支出（OpEx）的 40%。每瓦可用于开销、数据摄取、训练，或为客户生成 token。

2 MIN READ

2026年 6月 23日

使用 DFlash 预测解码，在 NVIDIA Blackwell 上将推理性能提升高达 15 倍

随着 AI 系统从单轮交互转向协调的多智能体工作流，低延迟推理成为越来越重要。自回归 LLM 按顺序生成 token，

2 MIN READ

2026年 6月 16日

如何优化基于 Transformer 的模型以进行低精度训练

Transformer 架构是许多现代大型语言和生成式 AI 模型的支柱。随着这些模型规模的扩大，

3 MIN READ

2026年 6月 16日

NVIDIA Blackwell 凭借业界领先的规模和性能超越 MLPerf 训练 6.0

NVIDIA 对 MLPerf Training v6.0 进行了彻底的测试，这是 MLCommons 联盟开发的最新版行业标准 AI…

3 MIN READ

2026年 6月 15日

使用 NVIDIA BioNeMo Recipes 使用 LoRA 微调生物基础模型

基础模型正在重塑计算生物学。预训练在大量蛋白质或基因组序列的语料库上的模型，如 ESM2 （一种蛋白质语言模型）和 Evo 2 （一种…

4 MIN READ

2026年 6月 15日

借助高级融合内核提高 MoE 训练吞吐量

多专家模型 (MoE) 已迅速成为现代大规模 AI 系统的基础组件。它们之所以得到广泛采用，是因为它们能够显著提高模型容量，

2 MIN READ

2026年 6月 12日

NVIDIA 在首个代理式 AI 基准测试中实现了领先的代理式编码性能

AI 智能体从根本上改变了推理工作负载的复杂性。到目前为止，业界一直在努力定义用于衡量推理系统在这些条件下的性能的标准。

2 MIN READ