常规

2026年 7月 15日

在 NVIDIA CUDA 13.3 中使用无带乘法构建更快的加密技术

15 年多来，x86 CPU 一直附带用于无携带乘法的专用硬件指令。它是一个小但却很棘手的基元，位于经过身份验证的加密、

3 MIN READ

2026年 7月 14日

排行榜上的经验教训：5000+ Kagglers 教我们如何改进 AI 推理

NVIDIA Nemotron 模型推理挑战赛邀请了 Kaggle 社区探讨一个重点问题：当每个人都从相同的开放模型、基准测试、

2 MIN READ

2026年 7月 14日

如何借助 RL 智能体技能和 NVIDIA NeMo 运行自动研究工作流

编码 AI 智能体正成为长期运行的机器学习 (ML) 工作流程的实用运算符。他们可以检查资源库、设置运行时、解决构建问题、启动实验、

4 MIN READ

2026年 7月 14日

使用代理技能在一天内对 NVIDIA Cosmos 3 进行后训练

如果自主编码 AI 智能体能够在几乎无需人工操作的情况下将您的视觉推理模型的准确率提高 90% 以上，那该多好？

4 MIN READ

2026年 7月 13日

使用引导生成模型预测极端事件概率

在科学、工程和金融领域，许多最重要的风险来自低概率、高影响事件。使用强力蒙特卡罗采样 (使用随机抽取的输入重复运行模型以估计罕见结果的概率)…

2 MIN READ

2026年 7月 11日

如何评估用于现实世界部署的通用机器人策略

机器人基础模型取得了显著进展。当今的出色系统可以遵循自然语言指令来选取、放置、分类和操作各种物体。但是，随着这些模型的功能越来越强大，

3 MIN READ

2026年 7月 10日

借助主机卸载减少基于 JAX 的 LLM 训练中的高带宽内存瓶颈

在充分利用计算能力之前，大语言模型 (LLM) 训练工作负载越来越多地遇到 GPU 显存限制。模型权重、梯度、优化器状态、

3 MIN READ

2026年 7月 10日

NVIDIA CUDA 中的内核融合：优化内存流量并启动开销

针对 GPU 优化代码的方法有很多。在本文中，您将了解内核融合如何提高内存带宽并减少内核启动用度，

4 MIN READ

2026年 7月 10日

AI 模型协同设计：硬件友好型 LLM 设计

AI 性能可归结为三个维度：部署必须平衡这三者：如果响应速度缓慢，就会浪费高准确度；如果每个用户的体验滞后，则原始吞吐量就意味着微不足道。

5 MIN READ

2026年 7月 8日

为 NVIDIA Nemotron 3 Ultra 创建 LangChain 深度智能体线束配置文件以提高性能

代理式系统通常需要在准确性和成本之间做出权衡。性能最高的专有前沿模型和线束可提供最高的准确性，但成本高昂。微调是解决这一问题的一种方法。

3 MIN READ

2026年 7月 8日

在 NVIDIA GB200 NVL72 上使用 GPU 加速的 Presto 运行低延迟分析工作负载

Presto 是一个开源分布式 SQL 引擎，可对超大型数据集快速运行交互式查询。在 NVIDIA GPU 上，

3 MIN READ

2026年 7月 7日

NVIDIA Vera CPU 提升 AI 工厂吞吐量，加速代理式工作负载

代理式系统通过结合推理、工具使用、代码执行、检索、编排和结果处理的多步骤工作流，将模型推理转化为行动。随着这些系统在整个 AI 工厂中的扩展，

2 MIN READ

2026年 7月 7日

使用 NVIDIA Isaac GR00T 开发端到端人形机器人策略

随着越来越多的团队从人形机器人启动转向特定任务的技能开发，对可重复开发工作流的需求也与日俱增。构建人形机器人仍然十分复杂，

3 MIN READ

2026年 7月 6日

使用 Noniform Tensor Parallelism 提高大规模 LLM 训练的效率

大规模训练 LLM 会带来独特的基础架构挑战，尤其是在作业跨越数千个 GPU 并长时间运行的情况下。这些作业运行的时间越长，

2 MIN READ

2026年 7月 2日

基于硬件的 AI 安全性不会拖慢您的速度

AI 改变了组织的运营方式，推动了前所未有的生产力和创新水平。但是，数据隐私、主权以及如何保护使用中的数据，

2 MIN READ

2026年 6月 30日

使用 NVIDIA GQE 设计 GPU 加速的查询引擎

GPU 加速的查询引擎通常会受到内存和 I/ O 带宽的限制。NVIDIA 硬件的进步 (包括高带宽显存 (HBM) 、

4 MIN READ