开发工具与技巧

2026年 3月 23日

NVIDIA IGX Thor 为工业、医疗和机器人边缘 AI 应用提供动力支持

工业和医疗系统正在迅速增加高性能 AI 的使用，以提高工人的工作效率、人机交互和停机管理。从工厂自动化单元到自主移动平台，再到手术室，

4 MIN READ

2026年 3月 16日

NVIDIA Dynamo 1.0 如何助力量产级多节点推理

推理模型的规模正在迅速增长，并且越来越多地集成到与其他模型和外部工具交互的代理式 AI 工作流中。

4 MIN READ

2026年 3月 16日

使用 NVIDIA OpenShell 更安全地运行自主、自演化代理

AI 已经从跟随你指令的助手发展为独立行动的智能体。这些被称为“爪”的智能体可以达成目标，找出实现目标的方法，并无限执行任务，

1 MIN READ

2026年 3月 12日

使用 NVIDIA Warp 为 AI 构建加速的可微分计算物理代码

计算机辅助工程 (CAE) 正在从人工驱动的工作流转向 AI 驱动的工作流，包括跨几何图形和操作条件进行泛化的物理基础模型。与 LLM 不同，

6 MIN READ

2026年 3月 10日

适用于虚幻引擎的可靠 AI 编码：提高准确性并降低词元成本

随着工作室构建更大的世界、发布更多 DLC 以及为分布式团队提供支持，代理式代码助手正在进入日常游戏开发阶段。

1 MIN READ

2026年 3月 9日

CUDA 13.2 引入增强的 CUDA Tile 支持和新的 Python 功能

CUDA 13.2 发布后进行了重大更新：NVIDIA CUDA Tile 现已支持具有 8.X 架构 ( NVIDIA Ampere 和…

5 MIN READ

2026年 3月 9日

从解服务中移除猜测

部署和优化大语言模型 (LLM) 以实现高性能、经济高效的服务可能是一项艰巨的工程难题。任何给定工作负载 (例如硬件、并行和预填充/

3 MIN READ

2026年 3月 5日

控制 NVIDIA CCCL 中的浮点确定性

如果使用相同的输入数据进行多次运行时能够产生完全一致的逐位计算结果，则该计算被称为确定性计算。这看似简单，但在实际中却难以实现，

2 MIN READ

2026年 3月 5日

在 NVIDIA CUDA Tile 中调整 Flash Attention 以实现峰值性能

在本文中，我们将深入探讨现代 AI 中至关重要的工作负载之一：Flash Attention，您将了解：环境要求：

9 MIN READ

2026年 3月 3日

cuTile.jl 为 Julia 带来基于 NVIDIA CUDA Tile 的编程

NVIDIA CUDA Tile 是 NVIDIA CUDA 编程的一项重要新增功能，可自动访问 Tensor Core 和其他专用硬件。

2 MIN READ

2026年 3月 3日

如何利用编码智能体大幅降低游戏运行时的推理成本

NVIDIA ACE 是一套用于构建游戏 AI 智能体的技术。ACE 为游戏中角色的各个部分（从语音到智能，

2 MIN READ

2026年 2月 28日

开发者可用 5 款全新数字孪生产品构建 6G 网络

要实现 6G，电信行业必须应对一项根本性挑战：如何设计、训练并验证那些过于复杂而无法在现实世界中进行测试的 AI 原生网络。

2 MIN READ

2026年 2月 27日

基于 NVIDIA GPU 加速端点，使用千问3.5 VLM 开发原生多模态智能体

阿里巴巴推出了全新开源千问3.5 系列，专为构建原生多模态智能体而设计。该系列的首个模型是一款总参数为 397B、

1 MIN READ

2026年 2月 27日

借助 NVIDIA Run:ai 与 NVIDIA NIM 充分释放 GPU 性能潜力

部署 LLM 的组织面临着推理工作负载的挑战，这些工作负载具有差异化的资源需求。小型嵌入模型可能仅需几 GB 的 GPU 显存，

4 MIN READ

2026年 2月 23日

采用 NVFP4 低精度训练提升吞吐量，兼顾精度无损

随着 AI 模型和数据集规模的不断扩大，仅依赖更高精度的 BF16 训练已难以满足需求。训练吞吐量预期、内存限制以及成本上升等关键挑战，

3 MIN READ

2026年 2月 18日

登顶 GPU 内核排行榜：借助 NVIDIA CUDA.compute 实现卓越性能

Python 在符合人体工程学的机器学习领域占据主导地位，但编写真正高效的 GPU 代码历来需要使用 C++ 编写自定义内核，

2 MIN READ

开发工具与技巧

NVIDIA IGX Thor 为工业、医疗和机器人边缘 AI 应用提供动力支持

NVIDIA Dynamo 1.0 如何助力量产级多节点推理

使用 NVIDIA OpenShell 更安全地运行自主、自演化代理

使用 NVIDIA Warp 为 AI 构建加速的可微分计算物理代码

适用于虚幻引擎的可靠 AI 编码：提高准确性并降低 词元成本

CUDA 13.2 引入增强的 CUDA Tile 支持和新的 Python 功能

从解服务中移除猜测

控制 NVIDIA CCCL 中的浮点确定性

在 NVIDIA CUDA Tile 中调整 Flash Attention 以实现峰值性能

cuTile.jl 为 Julia 带来基于 NVIDIA CUDA Tile 的编程

如何利用编码智能体大幅降低游戏运行时的推理成本

开发者可用 5 款全新数字孪生产品构建 6G 网络

基于 NVIDIA GPU 加速端点，使用千问3.5 VLM 开发原生多模态智能体

借助 NVIDIA Run:ai 与 NVIDIA NIM 充分释放 GPU 性能潜力

采用 NVFP4 低精度训练提升吞吐量，兼顾精度无损

登顶 GPU 内核排行榜：借助 NVIDIA CUDA.compute 实现卓越性能

适用于虚幻引擎的可靠 AI 编码：提高准确性并降低词元成本