隆重推出 Nemotron 3 Super：用于代理式推理的开放式混合式 Mamba-Transformer MoE

代理式 AI 系统需要具有专业深度的模型来自主解决密集的技术问题。它们必须在推理、编码和长上下文分析方面表现出色，同时保持足够的效率，以持续大规模运行。

多智能体系统在每个回合中生成的标准聊天、重新发送历史记录、工具输出和推理步骤的数量是 tokens 的 15 倍。在长时间的任务中，这种“上下文爆炸”会导致目标漂移，即智能体逐渐失去与原始目标的对齐。在每个子任务中使用大规模推理模型 (即“思维税”) 会导致多智能体应用的实际应用成本过高、运行缓慢。

今天，我们将发布 Nemotron 3 Super 来解决这些限制。新的 Super 模型是一个总计 120B、12B 的活动参数模型，可为软件开发和网络安全分类等复杂的多智能体应用提供更高的计算效率和准确性。此模型是在 12 月推出 Nemotron 3 Nano 之后推出的。

Super 通过其混合专家模型 (MoE) 架构解决了“思维税”问题。其吞吐量是上一代 Nemotron Super 的 5 倍以上。该模型通过原生的 1M-token 上下文窗口解决了“上下文爆炸”问题，该窗口为智能体提供了用于对齐、高精度推理的长期记忆。该模型完全开放，具有开放的权重、数据集和方法，因此开发者可以在自己的基础设施上轻松自定义、优化和部署该模型。

是什么让 Nemotron 3 Super 与众不同

Nemotron 3 Super 不仅仅是一个更大的 Nano。它引入了架构创新，使模型能够缓解高容量推理模型在效率和准确性方面的一些典型权衡：

潜在 MoE 通过在 tokens 发送给专家之前对其进行压缩，以相同的推理成本调用 4 倍专家专家的
Multi-token prediction (MTP) ，可在一次前向传递中预测多个未来 tokens，显著缩短长序列的生成时间，并实现内置的预测性解码。
混合式 Mamba-Transformer 主干将可提高序列效率的 Mamba 层与用于精确推理的 Transformer 层集成在一起，可将内存和计算效率提高 4 倍，从而提供更高的吞吐量。
与 NVIDIA H100 上的 FP8 相比，针对 NVIDIA Blackwell 优化的原生 NVFP4 预训练可显著降低显存需求，并将 NVIDIA B200 上的推理速度提高 4 倍，同时保持准确性。
多环境强化学习 (RL) 使用 RL 在 21 个环境配置中进行后训练，使用 NVIDIA NeMo Gym 和 NVIDIA NeMo RL，经过 120 多万次环境部署训练。

这些优势共同造就了一个非常适合长期运行的自主智能体的模型。在 PinchBench（用于确定大语言模型作为 OpenClaw 智能体大脑的表现的新基准测试）上，Nemotron 3 Super 在整个测试套件中的得分为 85.6%，成为同类最佳开放模型。

查看实际应用

如果您想亲身体验 Nemotron 3 Super，请观看下面的教程视频。本视频将介绍如何使用从 build.nvidia.com 到 OpenCode 的模型。

视频 1. Nemotron 3 Super 教程

深入研究架构

混合式 Mamba-Transformer MoE 主干

Super 基于与 Nano 相同的混合理念构建，但其规模根本不同。主干网交织三种层类型：

Mamba-2 层可处理大多数序列处理。状态空间模型 (SSM) 提供相对于序列长度的线性时间复杂性，这使得 1M-token 上下文窗口切实可行，而非理论化。当智能体需要对整个代码库、很长的对话历史记录或检索到的文档堆栈进行推理时，Mamba 层可保持可管理的内存占用。

Transformer 注意力层在关键深度交错。纯 SSM 难以处理精确的联想召回，而这一任务需要找到一个隐藏在漫长语境中的特定事实。注意力层保留了这种功能，确保即使“指针”位于相互冲突的信息的大海捞针中间，Super 也能保持高保真检索。

MoE 层可扩展有效的参数计数，而无需付出密集计算的成本。每个 token 只有部分专家会激活，保持低延迟和高吞吐量，这对于在共享部署中同时运行多个智能体至关重要。

潜在 MoE

标准 MoE 架构将 tokens 直接从模型的全隐维度传递给专家。随着模型的增长，此路由层成为瓶颈，这会增加计算成本，并限制您可以实际部署的专家数量。

Super 引入了潜在 MoE：在做出路由决策之前，token 嵌入会投射到压缩的低秩隐空间中。专家计算在这个较小的维度中进行，之后会将结果投射回完整的模型维度。

为什么这在实践中很重要：

专家更多，成本不变。 通过在专家收到 tokens 之前对其进行压缩，潜在 MoE 使模型能够以与运行专家完全相同的计算成本咨询 4 倍的专家。

更精细的专业化。有了更多的专家，该模型可以承担高度专业化的路由 (例如，为 Python 语法和 SQL 逻辑激活不同的专家) ，这些路由仅在严格必要时激活。这种粒度在代理式设置中尤其重要，在这些设置中，单次对话可能会在几秒钟内涵盖工具调用、代码生成、数据分析和对话推理。

Multi-token 预测 (MTP)

标准语言模型经过训练，可一次预测一个 token，这从根本上说是短视的目标。Super 使用 MTP 进行训练，其中专门的预测主管从每个位置同时预测几个未来的 tokens。

这具有两个具体优势：

在训练过程中进行更有力的推理。 预测多个未来 tokens 会迫使模型内部化更长范围的结构和逻辑依赖项。模型必须学习预测连贯序列，而不是学习猜测可能出现的下一个单词。这在思维链任务中产生了可衡量的收益，其中每个步骤都必须逻辑地遵循上一个步骤。

内置推理推理解码。通过在一次正向传递中同时预测多个未来 tokens，MTP 可显著缩短生成长序列所需的时间。MTP 接头可提供可并行验证的草稿预测，从而将结构化生成任务 (如代码和工具调用) 的速度提升高达 3 倍，而无需使用单独的草稿模型。

这两种优势都源于相同的设计决策。与每次偏移训练独立预测头的架构不同，Super 在所有 MTP 头上使用共享权重设计。这可将参数开销保持在最低限度，同时提高训练稳定性 — — 主管学习一致的连续性，而不是分散到特定偏移量的捷径上。同样的权重共享也使预测草稿在更长的草稿长度时更加一致，而独立训练的头部通常会降低这种一致性。

原生 NVFP4 预训练

大多数量化模型从全精度开始，并在训练后得到压缩，这不可避免地会造成准确性损失。Super 采用了另一种方法：预训练期间的大多数浮点乘积累加运算均在 NVFP4, (NVIDIA 4 位浮点格式) 中运行。与 FP8 相比，它针对 Blackwell 进行了优化，显著降低了内存需求并加快了推理速度，同时保持了准确性。

以降低的精度进行原生训练意味着模型能够学会保持准确性在从第一次梯度更新开始，4 位运算的限制。因此，尽管运行时显存占用显著减少，但模型在数学上仍然稳定且准确。

我们如何训练 Nemotron 3 Super

Nemotron 3 Super 分三个连续阶段进行训练，每个训练阶段都在最后。预训练可大规模地建立广泛的世界知识和语言理解能力。监督式微调可针对部署中遇到的任务类型塑造模型的行为。然后，强化学习根据不同代理式环境中可验证的结果来优化该行为。

预训练

Super 使用 NVFP4 (针对 NVIDIA Blackwell 优化的 NVIDIA 4 位浮点格式) 在 25 万亿 tokens 上进行预训练。与事后量化全精度模型不同，Super 以从第一次梯度更新开始降低的精度进行原生训练，这意味着模型在整个预训练 (而不仅仅是推理) 过程中都会学习在 4 位算法的约束条件下保持准确性。该预训练语料库涵盖 10 万亿个独特的精选 tokens，模型在整个运行中总共看到 25 万亿个 tokens，包括专注于推理和编码的额外计算。

监督式微调

在强化学习之前，Super 会对大约 700 万个 SFT 样本进行监督式微调。它们取自包含 4000 万个样本的更广泛的后训练语料库，涵盖推理、指令遵循、编码、安全和多步骤智能体任务。此阶段建立行为基础，然后 RL 进行完善。该模型学习跨任务类型的正确响应的格式和结构，为后续 RL 阶段提供稳定的起点，而不是从原始预训练检查点进行优化。

多环境强化学习

为了使 Super 与真实的代理行为保持一致，该模型在 NeMo Gym (用于构建和扩展 RL 训练环境的 NVIDIA 开源库) 中使用跨不同环境的强化学习进行后训练。这些环境不仅能评估模型执行动作序列的能力，还能生成正确的工具调用、编写功能代码、生成满足可验证标准的多部分计划，而不仅仅是提供令人满意的单回合响应。这些轨迹构成了使用 NeMo RL 开放库大规模运行强化学习的核心训练数据。

这种基于轨迹的强化模型可在多步骤工作流中可靠地运行，减少推理漂移，并处理代理式工作流中常见的结构化运算类型。

基准测试 Nemotron 3 Super

Nemotron 3 Super 在许多重要的代理式基准测试中实现了领先的准确性，同时保持了惊人的吞吐量。

“Super+ Nano”部署模式

Nemotron 3 Nano 是在智能体工作流中实现高准确度、针对性地执行单个步骤的绝佳选择。但是，当多智能体应用升级到复杂的多步骤活动时，它们需要一个高容量模型来实现出色的规划和推理。想象一下，计算机使用代理需要在不同的工具模式之间做出决策，以便使用 10 张高质量幻灯片制作演示文稿。

Nemotron 3 Super 是这种用途的理想选择。例如，在软件开发中，Nemotron 3 Nano 可以处理简单的合并请求，而 Nemotron 3 Super 可以处理需要更深入地理解代码库的复杂编码任务。专有模型可以处理专家级编码任务。

使用 Super 的开放资源进行构建

Nemotron 3 Super 是完全开放的模型，包括权重、数据集和方法，因此开发者可以在自己的基础设施上轻松自定义、优化和部署模型，从而更大限度地提高隐私性和安全性。

模型权重

Nemotron 3 Super 的完整参数检查点可通过 Hugging Face 和 NVIDIA NIM 获取。 NVIDIA Nemotron 开放模型许可证让企业能够灵活地进行数据控制并在任何地方进行部署。

多个端到端训练和评估方案

我们将发布 Nemotron 3 Super 的完整训练和评估方案，涵盖从预训练到比对的整个工作流。这使开发者能够重现 Super 的训练，调整针对特定领域变体的方法，或将其用作自己混合架构研究的起点。

部署指南

我们为主要推理引擎构建了即用型指南，其中每个指南都包含配置模板、性能调优指南和参考脚本：

vLLM Cookbook：适用于 Super 的高吞吐量连续批处理和流式传输。
SGLang Cookbook：针对多智能体工具调用工作负载优化的快速、轻量级推理。
NVIDIA TensorRT LLM Cookbook：经过全面优化的 TensorRT LLM 引擎，采用潜在的 MoE 内核，可实现生产级、低延迟部署。

微调指南

探索我们的 Nemotron 3 Super 定制指南，针对您的领域 (LoRA/ SFT) 进行高效微调，或提升其代理式推理能力 (GRPO/ DAPO) ：

使用 NVIDIA NeMo Megatron-Bridge 的 Nemotron 3 Super 上的 LoRA SFT 基于 NVIDIA NeMo Megatron-Bridge
使用 NVIDIA NeMo 自动模型在 Nemotron 3 Super 上运行 LoRA SFT 基于 NVIDIA NeMo 自动模型
GRPO/DAPO on Nemotron 3 Super 基于 NeMo RL

开放数据集

Nemotron 3 Super 基于完全开放的端到端数据工作流构建，涵盖预训练、后训练和交互式强化学习，为开发者提供可复制的代理式 AI 构建块。

预训练语料库: 精心策划了 10 万亿个 tokens，训练了超过 25 万亿个 tokens，另外还有 100 亿个专注于推理的 tokens 和 1500 万个编码问题。所有这些都经过积极的重复数据删除和质量过滤，以更大限度地提高信噪比。
后训练数据集: 4000 万个新的监督式和比对样本，涵盖监督式微调、偏好数据和 RL 轨迹中的推理、指令遵循、编码、安全和多步骤智能体任务 (约 700 万个直接用于 SFT)
RL 任务和环境: 跨 21 个环境配置和 37 个数据集 (其中约 10 个数据集正在发布) 的交互式 RL，包括软件工程师式智能体训练和工具增强搜索/ 规划任务 — — 从静态文本转向动态、可验证的执行工作流，并在训练期间生成约 120 万个环境部署。

开放式训练和评估基础架构

NVIDIA 发布开发技术和工具，使研究人员和企业能够灵活定制 Nemotron 3 Super 或构建自己的推理模型。所有方案均与 Nemotron GitHub 资源库、NeMo Gym、NeMo RL、NVIDIA NeMo Data Designer、NVIDIA NeMo Curator 和 NVIDIA NeMo Evaluator 集成，可提供从数据到部署的完整、可复制的工作流。

所有 Nemotron 模型均采用开放式评估方法发布，其中包括已发布的评估方法，任何人都可以重新运行并检查 Nemotron 3 Super 的完整评估流程。

开始使用

Nemotron 3 Super 现已上线。Super 可在领先的推理平台上使用，并封装为 NVIDIA NIM，可以在从工作站到云端的任何地方运行。使用专业版订阅在 Perplexity 上试用，或通过 API、OpenRouter，或 build.nvidia.com 试用。

从 Hugging Face 下载权重，通过 Hugging Face，通过 NVIDIA NIM 启动优化实例，使用 Unsloth 进行微调，或从指南开始，只需几分钟即可运行。

Super 也可用于 Baseten、Cloudflare、Coreweave、DeepInfra、Fireworks AI、FriendliAI、Google Cloud、Inference.net、Lightning AI、Modal、Nebius 和 Together AI。

查看我们的 GitHub 资源库，该资源库已针对 OpenCode、OpenHands 和 OpenClaw 等平台提供入门说明。

如需了解完整的技术细节，请参阅 Nemotron 3 Super 技术报告。

通过订阅NVIDIA 新闻并在LinkedIn、X、Discord和YouTube上关注 NVIDIA AI，随时了解NVIDIA Nemotron的最新动态。访问Nemotron 开发者页面，获取入门资源。在Hugging Face和Blueprints上探索开放的 Nemotron 模型和数据集。在Nemotron 直播、教程以及NVIDIA 论坛和Discord上与开发者社区互动。

隆重推出 Nemotron 3 Super：用于代理式推理的开放式混合式 Mamba-Transformer MoE

是什么让 Nemotron 3 Super 与众不同

查看实际应用