深入解析 NVIDIA Nemotron 3：使其高效精准的技术、工具与数据

代理式 AI 系统日益依赖协同运行的智能体集合，包含检索器、规划器、工具执行器、验证器等，它们需在大规模上下文上长时间协同工作。这类系统需要能够提供快速吞吐、高推理精度及大规模输入持续一致性的模型。它们也需要一定的开放性，使开发者能够在任意运行环境定制、扩展和部署模型。

NVIDIA Nemotron 3 系列开放模型 (Nano、Super、Ultra)、数据集和技术专为在新时代构建专业代理式 AI 而设计。

该系列引入了异构 Mamba-Transformer 混合专家 (mixture-of-experts, MoE) 架构、交互式环境强化学习 (reinforcement learning, RL)，以及原生 100 万 token 上下文窗口，可为多智能体应用提供高吞吐量、长时推理能力。

Nemotron 3 的新特性

Nemotron 3 引入了多项创新技术，可精准满足代理式系统需求：

混合 Mamba-Transformer MoE 主干提供出色的测试时效率与长程推理能力。
围绕真实世界代理式任务设计的多环境强化学习。
100 万 token 上下文长度支持深度多文档推理与长时间智能体记忆。
开放透明的训练管道，包含数据、权重及方案。
Nemotron 3 Nano 现已推出并附带现成使用指南。Super 与 Ultra 将于稍晚发布。

简单提示示例

视频链接：https://developer.download.nvidia.com/video/devblog/Nemotron3PromptRecording.mp4

视频 1：在 Nemotron 3 Nano 上运行桌位逻辑谜题的视频。

Nemotron 3 模型的核心技术

混合 Mamba-Transformer MoE 架构

Nemotron 3 将三种架构整合成一个主干：

Mamba 层：实现高效序列建模
Transformer 层：保障推理精度
MoE 路由：实现可扩展计算效率

Mamba 层擅长以极低显存开销追踪长程依赖，即使处理数十万 token 仍能保持稳定的性能。Transformer 层通过精细注意力机制对此进行了补充，捕捉例如代码操作、数学推理或复杂规划等任务所需的结构与逻辑关联。

MoE 组件在不增加密集计算开销的前提下提升了有效参数数量。每个 token 仅激活一部分专家，从而降低了延迟并提高了吞吐量。该架构特别适合需要同时运行大量轻量级智能体的集群场景，每个智能体都生成计划、检查上下文或执行基于工具的工作流。

图 1：Nemotron 3 混合架构。该模型通过交错部署 Mamba-2 与 MoE 层，辅以少量自注意力层，在保持领先精度的同时实现推理吞吐量最大化。

多环境强化学习 (RL) 训练

为使 Nemotron 3 契合真实代理式行为，该模型在 NeMo Gym（一个用于构建和扩展 RL 环境的开源库）中通过跨多种环境的强化学习进行后训练。这些环境评估模型执行连续动作序列的能力（不仅是单次响应），例如生成正确的工具调用、编写功能性代码，或生成满足可验证标准的多步骤计划。

这种基于轨迹的强化学习带来了在多步骤工作流中表现稳定的模型，减少推理漂移，并能处理代理式管道中常见的结构化操作。由于 NeMo Gym 是开源的，开发者可在为特定领域任务定制模型时复用、扩展甚至创建自己的环境。

这些环境和 RL 数据集连同 NeMo Gym 一起上线，供有意使用这些环境训练自己模型的用户使用。

图 2：Nemotron 3 Nano 通过混合 MoE 架构实现极高的吞吐效率，并借助 NeMo Gym 的先进强化学习技术达到领先精度

100 万 token 上下文长度

Nemotron 3 的 100 万 token 上下文使其能够在大型代码库、长文档、扩展对话及聚合检索内容中进行持续推理。智能体无需依赖碎片化的分块启发式方法，就可以在单个上下文窗口中完整保留证据集、历史缓冲及多阶段计划。

这种长上下文窗口得益于 Nemotron 3 的混合 Mamba-Transformer 架构，它能够高效处理超大规模的序列。MoE 路由也能保持较低的单个 token 计算成本，使得在推理时处理这些大型序列成为可能。

对于企业级检索增强生成、合规性分析、多小时智能体会话或整体存储库理解等场景，100 万 token 窗口可显著加固事实基础并减少上下文碎片化。

Nemotron 3 Super 与 Ultra 的核心技术

潜在 MoE

Nemotron 3 Super 与 Ultra 引入了潜在 MoE，其中专家先在共享潜在表示中运行，然后再将输出结果投影回 token 空间。该方法使模型能够在相同推理成本下调用多达 4 倍的专家，从而更好地围绕微妙语义结构、领域抽象或多跳推理模式实现专业化。

图 3：标准 MoE 与潜在 MoE 架构对比。在潜在 MoE 中，token 被投影至更小的潜在维度进行专家路由与计算，在降低通信成本的同时支持更多专家参与，并提高每字节精度。

多 token 预测 (MTP)

MTP 使模型能够在一次前向传播中预测多个未来 token，从而显著提高长推理序列和结构化输出的吞吐量。对于规划、轨迹生成、扩展思维链或代码生成，MTP 可降低延迟并提高智能体的响应速度。

图 4：多 token 预测（源自论文《通过多 token 预测实现更优更快的大语言模型》）可同时预测多个未来 token，在训练阶段将精度提高约 2.4%，在推理阶段实现了推测性解码加速。

NVFP4 训练

Super 与 Ultra 模型采用 NVFP4 精度进行预训练，NVIDIA 的 4 位浮点格式可为训练与推理提供业界领先的成本精度比。我们为 Nemotron 3 设计了更新版 NVFP4 方案，确保在 25 万亿 token 预训练数据集上能够实现精准且稳定的预训练。预训练过程中的大部分浮点乘加运算均采用 NVFP4 格式。

持续致力于开放模型

Nemotron 3 彰显了 NVIDIA 对透明度与开发者赋能的承诺。该模型的权重已根据 NVIDIA 开放模型许可协议 (NVIDIA Open Model License) 公开发布。NVIDIA 的合成预训练语料库（近 10 万亿 token）可以被查阅或重用。开发者还可获取 Nemotron GitHub 库中的详细训练与后训练方案，实现完全的可复现性与定制化。

Nemotron 3 Nano 已发布，为高吞吐量、长上下文代理式系统奠定了基础。Super 与 Ultra 将于 2026 年上半年发布，将在此基础上进一步深化推理能力和提高架构效率。

Nemotron 3 Nano 现已发布

系列首款模型 Nemotron 3 Nano 已于近日发布。这个总参数 300 亿、激活参数 30 亿的模型专为 DGX Spark、Hopper GPU 及 Blackwell GPU 设计，让用户能够使用 Nemotron 3 系列中较高效的模型进行开发。

如果您想要了解更多关于 Nemotron 3 Nano 的技术细节，可访问 Hugging Face 博客，或阅读技术报告。

该模型可达到极高的吞吐量效率，在 Artificial Analysis Intelligence Index 上成绩领先，并且在 Artificial Analysis Openness Index 上保持了与 NVIDIA Nemotron Nano V2 相同的分数。这充分展现了其在多智能体任务中的高效性，同时兼具透明度与可定制性。

图 5：在 Artificial Analysis Intelligence Index v3.0 上，Nemotron 3 Nano 的精度（52）领先于同等规模模型。

开发者现可在多种部署与开发工作流中使用 Nemotron 3 Nano：

通过 NVIDIA 使用指南启动模型

我们为多个主流推理引擎提供现成使用指南：

vLLM 使用指南：通过高吞吐量连续批处理和流式输出部署 Nemotron 3 Nano。
SGLang 使用指南：运行专为多智能体工具调用工作负载优化的快速、轻量级推理。
TRT LLM 使用指南：部署专为低延迟生产级环境完全优化的 TensorRT LLM 引擎。

每套使用指南均包含配置模板、性能优化建议及参考脚本，助您在数分钟内启动 Nemotron 3 Nano。

此外，从 GeForce RTX 台式电脑 / 笔记本电脑、RTX Pro 工作站到 DGX Spark，您可以立即在任意 NVIDIA GPU 上使用 Nemotron，并借助 Llama.cpp、LM Studio 和 Unsloth 等顶级框架与工具上手。

使用 Nemotron 开放训练数据集进行开发

NVIDIA 同时发布了在整个模型开发期间使用的开放数据集，为高性能、可信模型的构建带来了空前的透明度。

新数据集的特点包括：

Nemotron 预训练：新的 3 万亿 token 数据集，通过合成增强与标注管道进行增强，更加全面地覆盖代码、数学及推理场景。
Nemotron 后训练3.0：1,300 万样本语料库，用于监督式微调与强化学习，为 Nemotron 3 Nano 的对齐与推理能力提供支持。
Nemotron 强化学习数据集：精选的强化学习数据集与环境集合，涵盖工具使用、规划及多步骤推理。
Nemotron 智能体安全数据集：近 1.1 万条 AI 智能体工作流轨迹集合，帮助研究人员评估和减轻代理式系统中的新型安全风险。

配合 NVIDIA NeMo Gym、RL、Data Designer 及 Evaluator 开放库，这些开放数据集使开发者能够训练、增强和评估他们自己的 Nemotron 模型。

探索 Nemotron GitHub：预训练与强化学习方案

NVIDIA 维护着一个开放的 Nemotron GitHub 库，其中包含：

预训练方案（已发布），展示 Nemotron 3 Nano 的训练过程
用于多环境优化的强化学习对齐方案
数据处理管道、分词器配置及长上下文设置
后续更新将加入更多后训练与微调方案

如果您想训练自己的 Nemotron、扩展 Nano 或创建特定领域的变体，GitHub 库提供了文档、配置及工具，可从头至尾重现关键步骤。

这种开放性实现了完整闭环：您可以运行、部署模型，查验模型的构建方式，甚至训练您自己的模型，全程仅需使用 NVIDIA 开放资源。

Nemotron 3 Nano 现已上线。即刻开始使用 NVIDIA 开放模型、开放工具、开放数据及开放训练基础设施，构建长上下文、高吞吐量的代理式系统。

Nemotron 模型推理挑战赛

加速开放研究是 Nemotron 团队的核心使命。为此，我们十分高兴地宣布一项新的社区竞赛，其内容是使用 Nemotron 的开放模型与数据集提高 Nemotron 的推理性能。

请在此注册报名，以便第一时间获取竞赛详情。

订阅 NVIDIA 新闻，关注 NVIDIA AI 官方账号，即可随时了解 NVIDIA Nemotron 的最新动态。

访问我们的 Nemotron 开发者页面，了解开始使用这一极其开放、计算效率极高的推理模型所需的所有基本信息。
在 Hugging Face 上探索新发布的 Nemotron 开放模型与数据集，并访问 NVIDIA 官网 了解 NIM 和 Blueprint。
分享您的想法并投票选出您喜欢的功能，帮助我们确定 Nemotron 的未来方向。
敬请关注即将举行的 Nemotron 直播，并通过 Nemotron 开发者论坛及 Discord 平台的 Nemotron 频道与 NVIDIA 开发者社区互动
观看视频教程与直播，充分利用 NVIDIA Nemotron 的能力

深入解析 NVIDIA Nemotron 3：使其高效精准的技术、工具与数据

Nemotron 3 的新特性

Nemotron 3 模型的核心技术

Nemotron 3 Super 与 Ultra 的核心技术

持续致力于开放模型

Nemotron 3 Nano 现已发布

Nemotron 模型推理挑战赛

标签

关于作者

深入解析 NVIDIA Nemotron 3：使其高效精准的技术、工具与数据

Nemotron 3 的新特性

Nemotron 3 模型的核心技术

Nemotron 3 Super 与 Ultra 的核心技术

持续致力于开放模型

Nemotron 3 Nano 现已发布

Nemotron 模型推理挑战赛

标签

关于作者

相关文章

NVFP4 加速 AI 训练与推理的三大方式

Painkiller RTX 如何通过生成式 AI 大规模重塑游戏资产

如何构建合规的 AI 模型蒸馏合成数据工作流

如何使用 Nemotron 为 RAG 构建文档处理流程

基于 NVIDIA GPU 加速端点构建 Kimi K2.5 多模态视觉语言模型