教程

2026年 3月 5日

控制 NVIDIA CCCL 中的浮点确定性

如果使用相同的输入数据进行多次运行时能够产生完全一致的逐位计算结果，则该计算被称为确定性计算。这看似简单，但在实际中却难以实现，

2 MIN READ

2026年 3月 5日

在 NVIDIA CUDA Tile 中调整 Flash Attention 以实现峰值性能

在本文中，我们将深入探讨现代 AI 中至关重要的工作负载之一：Flash Attention，您将了解：环境要求：

9 MIN READ

2026年 3月 5日

NVIDIA Blackwell 刷新金融领域大模型推理 STAC-AI 历史纪录

大语言模型（LLM）通过精密分析大量非结构化数据，生成切实可行的交易见解，正在重塑金融交易格局。这些先进的 AI 系统能够处理金融新闻、

3 MIN READ

2026年 3月 3日

cuTile.jl 为 Julia 带来基于 NVIDIA CUDA Tile 的编程

NVIDIA CUDA Tile 是 NVIDIA CUDA 编程的一项重要新增功能，可自动访问 Tensor Core 和其他专用硬件。

2 MIN READ

2026年 3月 3日

如何利用编码智能体大幅降低游戏运行时的推理成本

NVIDIA ACE 是一套用于构建游戏 AI 智能体的技术。ACE 为游戏中角色的各个部分（从语音到智能，

2 MIN READ

2026年 2月 28日

使用 NVIDIA NeMo 构建电信自主网络推理模型

自主网络正迅速成为电信行业的重点任务之一。根据最新的 NVIDIA 电信行业 AI 现状报告，65% 的运营商表示 AI 正在推动网络自动化，

2 MIN READ

2026年 2月 18日

NVIDIA 极致软硬件协同设计如何助力 Sarvam AI 主权模型实现惊人推理性能跃升

随着全球人工智能采用的加速，开发者面临日益严峻的挑战：如何提供符合现实世界延迟和成本要求的大语言模型（LLM）性能。

4 MIN READ

2026年 2月 9日

借助 NVIDIA TensorRT LLM AutoDeploy 实现推理优化自动化

NVIDIA TensorRT LLM 使开发者能够为大语言模型 (LLM) 构建高性能推理引擎，但传统上部署新架构往往需要大量手动工作。

3 MIN READ

2026年 2月 5日

如何构建合规的 AI 模型蒸馏合成数据工作流

专用 AI 模型用于执行特定任务或解决特定问题。然而，如果您曾尝试对特定领域的模型进行微调或蒸馏，可能会遇到一些障碍，例如：

4 MIN READ

2026年 2月 4日

如何使用 Nemotron 为 RAG 构建文档处理流程

如果您的 AI 智能体能够像读取文本文件一样轻松地即时解析复杂的 PDF、提取嵌套表格并“查看”图表中的数据，该怎么办？

3 MIN READ

2026年 2月 4日

基于 NVIDIA GPU 加速端点构建 Kimi K2.5 多模态视觉语言模型

Kimi K2.5 是 Kimi 模型家族最新推出的开放式视觉语言模型（VLM）。作为通用型多模态模型，Kimi K2.5…

1 MIN READ

2026年 1月 28日

更新视觉语言模型的分类器规避

AI 架构的进步解锁了多模态功能，使 Transformer 模型能够在统一的上下文中处理多种类型的数据。例如，

3 MIN READ

2026年 1月 26日

NVIDIA TensorRT for RTX 中的自适应推理可实现自动优化

传统上，在各种消费级硬件中部署 AI 应用需要进行权衡。可以针对特定 GPU 配置进行优化，以牺牲便携性为代价来提升性能；

3 MIN READ

2026年 1月 22日

在 NVIDIA Blackwell 数据中心 GPU 上实现 FLUX.2 的 NVFP4 推理扩展

2025 年，NVIDIA 与 Black Forest Labs (BFL) 合作优化 FLUX.1 文本转图像模型系列，

3 MIN READ

2026年 1月 21日

使用 Single Call API 简化 CUB

C++ 模板库 CUB 提供了高性能 GPU 基元算法，但其将内存估计与分配分离的传统“两阶段”API 可能带来使用上的不便。

2 MIN READ

2026年 1月 15日

如何使用合成数据和强化学习训练 AI 智能体执行命令行任务

如果您的计算机智能体能够学习新的命令行界面（CLI），并且在无需编写文件或自由输入 shell 命令的情况下也能安全操作，该怎么办？

3 MIN READ