开发工具与技巧

2026年 7月 26日

NVIDIA Nemotron 3 Ultra 在代理式 RTL 编码的准确性和效率方面引领开放模型

现代芯片设计日益受到工程时间的限制。寄存器传输级 (RTL) 开发和验证需要具备专门的硬件知识、

3 MIN READ

2026年 7月 24日

ModelExpress：以光速分发模型伪影

每移动一个字节都会产生一定的成本。随着模型检查点数量增长到数百 GB 甚至一 TB，这一成本会迅速增加。更糟糕的是，

3 MIN READ

2026年 7月 23日

使用 NVIDIA OptiX 工具包调试光线追踪应用

NVIDIA OptiX 光线追踪引擎是一种应用框架，可在 GPU 上实现出色的光线追踪性能。

2 MIN READ

2026年 7月 23日

借助 Prime Intellect Lab，只需几分钟即可开始自定义 NVIDIA Nemotron 3 Nano

自定义使开发者能够采用通用模型，并根据用例、领域、语言等对其进行定制。然而，定制化也带来了一些挑战。它需要基础设施、

4 MIN READ

2026年 7月 22日

让长时间运行的 NVIDIA TensorRT 引擎在 Python 或 C++ 中构建可观察和可取消

构建 TensorRT 引擎可能需要几秒钟到几分钟的时间。大型强类型模型、深度策略搜索和全新 GPU SKU 上的冷定时缓存可能会让开发者、

4 MIN READ

2026年 7月 21日

在 NVIDIA GB300 NVL72 上进行 MoE 预训练创下世界纪录

前沿模型预训练已融合多专家模型 (MoE) ，这从根本上改变了对大规模 AI 训练的限制。随着每 token 的计算量下降，

3 MIN READ

2026年 7月 21日

深入了解 NVIDIA Rubin GPU 架构：助力代理式 AI 时代

最初是离散 AI 模型训练和面向人类的聊天界面，后来演变为始终在线的 AI 工厂，致力于大规模生产智能。现在，

4 MIN READ

2026年 7月 16日

将上下文感知型视频 AI 智能体集成到企业工作流中

能够根据大量视频片段进行感知、推理和行动的视频分析 AI 智能体必须与现有工作流程和应用集成，才能发挥作用。其中包括内容管理系统、

4 MIN READ

2026年 7月 15日

借助 AI 智能体更快地开发轻量级 USD 运行时

OpenUSD 是一个开放、可扩展的框架，可为物理 AI 提供通用场景描述语言。它使团队能够将 CAD 数据、

3 MIN READ

2026年 7月 15日

在 NVIDIA CUDA 13.3 中使用无带乘法构建更快的加密技术

15 年多来，x86 CPU 一直附带用于无携带乘法的专用硬件指令。它是一个小但却很棘手的基元，位于经过身份验证的加密、

3 MIN READ

2026年 7月 14日

如何借助 RL 智能体技能和 NVIDIA NeMo 运行自动研究工作流

编码 AI 智能体正成为长期运行的机器学习 (ML) 工作流程的实用运算符。他们可以检查资源库、设置运行时、解决构建问题、启动实验、

4 MIN READ

2026年 7月 13日

NVIDIA 正在解码，将色彩代码逻辑错误率降低超过 300 倍

实用的量子计算机需要容错逻辑运算。研究人员正在积极探索许多不同的量子纠错 (QEC) 代码来实现这一点，从而提高量子处理单元 (QPU)…

2 MIN READ

2026年 7月 10日

借助主机卸载减少基于 JAX 的 LLM 训练中的高带宽内存瓶颈

在充分利用计算能力之前，大语言模型 (LLM) 训练工作负载越来越多地遇到 GPU 显存限制。模型权重、梯度、优化器状态、

3 MIN READ

2026年 7月 10日

NVIDIA CUDA 中的内核融合：优化内存流量并启动开销

针对 GPU 优化代码的方法有很多。在本文中，您将了解内核融合如何提高内存带宽并减少内核启动用度，

4 MIN READ

2026年 7月 10日

AI 模型协同设计：硬件友好型 LLM 设计

AI 性能可归结为三个维度：部署必须平衡这三者：如果响应速度缓慢，就会浪费高准确度；如果每个用户的体验滞后，则原始吞吐量就意味着微不足道。

5 MIN READ

2026年 7月 10日

借助 NVIDIA BioNeMo Agent Toolkit 加速端到端协同折叠性能

生物分子结构预测以及与 OpenFold3 等模型的联合折叠现已成为主流的大规模工作负载，为药物研发和蛋白质设计提供支持。

3 MIN READ