NVIDIA Nemotron

NVIDIA Nemotron™ 是一系列最开放的模型,配备开放的权重、训练数据和方案,提供业内领先的效率和准确性,用于构建专用的 AI 代理。

探索模型论坛教程


NVIDIA Nemotron 模型

Nemotron 模型具有高度透明性——这些模型使用的训练数据以及模型权重都是开放的,并已在 Hugging Face 上提供,便于你在投入生产前进行评估。概述如何复现这些模型所需步骤的技术报告也同样免费开放。

全新的 Nemotron 3 系列提供高效的多模态模型,基于混合 Mamba‑Transformer MoE 架构并支持 100 万 token 上下文,为复杂的、高吞吐量的 agentic AI 应用带来出色的准确率。

你可以使用 vLLM、SGLang、Ollama 和 llama.cpp 等开源框架,轻松在任意 NVIDIA GPU 上部署这些模型——从边缘设备、云环境到数据中心。还可以通过 NVIDIA NIM 微服务形式获取推理端点,从而在任何 GPU 加速系统上便捷完成部署。

Nemotron 推理模型针对各种平台进行了优化:

  • Nano 通过高精度的专用子智能体实现成本效率,如今借助 Nano Omni 获得多模态能力。

  • Super 为多智能体应用中的推理与工具调用提供极高效率和领先精度。

  • Ultra 面向对复杂智能体任务具有更高推理精度需求的应用场景而设计。


此外,这些模型可提供超高吞吐量,使智能体能够更快地思考并生成更准确的响应,同时降低推理成本。

Nemotron 模型还可用于视觉理解、信息检索、语音和安全。

Nemotron 3 Nano 30B A3B

  • 与 Nemotron 2 Nano 相比,Nemotron 3 Nano 的吞吐量提高了 4 倍
  • 在编码、推理、数学和长上下文任务方面,准确性领先
  • 非常适合需要为目标任务提供最高准确性和效率的智能体

Nemotron 3 Nano Omni 30B A3B

  • 单一模型即可理解视频、音频、图像和文本,为智能体工作流带来更简化的设计
  • 在计算机使用智能体、文档智能处理、视频/音频理解等智能体场景中,为子智能体提供多模态推理能力
  • 在同级模型中具备极高的效率表现,并有效控制使用成本

Nemotron 3 Super 120B A12B

  • 更高的效率和领先的准确性
  • 非常适合在多智能体环境中处理复杂任务
  • 适用于单数据中心 GPU 部署

Llama Nemotron Ultra 253B

  • 非常适合需要最高准确性的多智能体企业工作流, 例如客户服务自动化、供应链管理和 IT 安全性
  • 适用于数据中心规模的部署

Nemotron Parse

  • 理解文档语义,并在具备空间定位的前提下抽取文本和表格元素
  • 克服传统 OCR 的限制,支持多栏版式、LaTeX 表格提取、markdown 格式化以及阅读顺序重建
  • 专为加速用于 RAG、LLM 训练数据精选与智能体文档流程的文档智能管线而设计

Nemotron RAG

  • 行业领先的提取、嵌入和重新排序模型
  • 为多模态文档智能、问答和通道检索提供出色的准确性
  • 在 ViDoRe V1ViDoRe V2,以及MTEB以及MMTEB 榜单上处于领先位置

Nemotron 语音

  • 开放模型系列,专为代理式 AI 应用的高吞吐量、超低延迟自动语音识别 (ASR) 、文本转语音 (TTS) 、语音转语音 (S2S) 、全双工和神经网络机器翻译 (NMT) 而优化
  • Nemotron 语音模型NVIDIA RivaGPU 加速的语音 AI 库提供先进的 ASR 和 TTS 功能,可实现无缝生产部署

Nemotron Safety

  • 先进的多语种、多模态安全模型,可提供高精度的越狱检测、带有文化细微差别的内容审核、细粒度 PII 检测、基于推理的自定义策略执行和主题控制,从而在全球范围内的领域和用例中实现更安全、更合规的 LLM。
  • NeMo Guardrails 是一个灵活、开放的库,用于实时定义和实施企业 AI 策略,涵盖对话控制、主题指导、RAG Grounding、工具调用治理、安全过滤等,可跨自定义、社区和 NVIDIA 安全轨并行执行低延迟策略。


NVIDIA Nemotron 数据集

通过面向智能体 AI 的大规模开源商业可用数据集(涵盖预训练、后训练、人物设定、安全、强化学习 RL 和 RAG),提升大型语言模型(LLM)的推理能力。该数据集包含超过 10T 标记和 40M 条后训练样本,覆盖从基础模型到智能体工作流的完整训练生命周期。

数据集依托大规模合成数据生成、过滤与精选构建,并以宽松许可方式发布。开发者可以在对数据完全可见的前提下进行模型训练、微调与评估,从而加快开发进程,并降低对不透明数据集的依赖。

Nemotron 训练前和训练后数据集

NVIDIA 提供超过 10T 的多语言推理、编码和安全数据 token,帮助社区构建自定义模型。

Nemotron Personas 数据集

完全合成、隐私安全的用户角色基于现实世界的人口、地理和文化分布。作为 NVIDIA 日益扩展的全球 Sovereign AI 开发生态的一部分,该系列提供面向不同地区的专用数据集,目前已包含面向美国、日本和印度数据集。

Nemotron Omni Datasets

多模态数据将 Nemotron 训练流程从纯文本扩展到图像、视频和语音。包含约 127B 标记的跨模态预训练数据,以及约 124M 条精选后训练样本,用于文档推理、计算机操作与长周期工作流。

Nemotron 安全数据集

精心策划的高质量数据集,旨在为多语言内容安全、高级策略推理和威胁感知 AI 提供支持,涵盖现代 AI 助手的审核数据和基于音频的安全信号。

Nemotron RL 数据集

使用为 Nemotron 提供支持的相同强化学习 (RL) 数据训练模型,包括跨编码、数学、推理和代理式任务的多回合轨迹、工具调用和偏好信号,以构建自适应、可靠的现实世界 AI。

Nemotron RAG 数据集

我们发布了 15 个精心策划的数据集 (涵盖指令遵循、推理、编码和评估数据) ,旨在加速开放研究和透明模型开发,从而为我们在排行榜上名列前茅的模型奠定基础。


开发者工具

NVIDIA NeMo

借助 NVIDIA NeMo™ 微调、部署和持续优化 Nemotron 模型,简化 AI 智能体生命周期管理。

NVIDIA TensorRT-LLM

TensorRT™ -LLM 是一个开源库,旨在为 NVIDIA GPU 上的 Nemotron 等大语言模型提供高性能的实时推理优化。此开源库位于 TensorRT-LLM GitHub 资源库包括模块化 Python 运行时、PyTorch 原生模型创作和稳定的生产 API。

开源框架

可以使用 Hugging Face transformers 等开源框架在各类平台上进行 Nemotron 模型的开发,也可以使用 vLLM 在所有受支持的平台上完成部署和生产级推理场景。


入门资源

借助高效的 NVIDIA Nemotron 3 Nano 准确性,为专用 AI 智能体提供支持,助力其完成目标任务

NVIDIA Nemotron 3 Nano 使用混合 Transformer-Mamba MoE 架构和可配置的思考预算,高效地提供先进的推理和代理功能,因此您可以调整准确性、吞吐量和成本,以满足您的实际需求。

如何使用新的 Nemotron 模型构建语音驱动的 RAG 智能体

获取分步指南,了解如何通过集成用于语音、RAG、安全和长上下文推理的 Nemotron 模型来构建语音驱动的 RAG 智能体。

Nemotron 3 Super:用于代理式推理的开放式混合式 Mamba-Transformer MoE

Nemotron 3 Super 是适用于大规模代理式 AI 的 Mamba+ Transformer MoE 混合模型,结合了潜在 MoE、多标记预测和 100 多万个标记上下文窗口,可实现更快、更可靠的长视界推理。原生 NVFP4 训练、多环境 RL 对齐以及完全开放的权重、数据集、方法和部署指南可帮助开发者快速构建和部署定制的智能体工作流。


入门套件

通过使用 NVIDIA Nemotron 模型为各种用例开发自定义智能体,开始解决 AI 挑战。探索实施脚本、解说员博客以及 AI 开发各个阶段的更多操作方法文档。

使用 Nemotron 构建报告生成智能体

该研讨会将指导开发者使用 NVIDIA Nemotron 和 LangGraph 构建报告生成智能体,重点关注 AI 智能体的四个核心注意事项:模型、工具、内存和状态以及路由。

使用 Nemotron 构建 RAG 智能体

在此自主培训中,您将深入了解代理检索增强生成 (RAG) 的核心原则,包括 NVIDIA Nemotron 模型系列,并学习如何在可移植的一站式开发环境中使用 LangGraph 构建自己的定制、可共享的代理式 RAG 系统。

使用 Nemotron 构建 Bash 计算机使用智能体

在此自主培训中,深入了解代理式检索增强生成 (RAG) 的核心原则,包括 NVIDIA Nemotron 模型系列,并学习如何在可移植的一站式开发环境中使用 LangGraph 构建自己的定制、可共享的代理式 RAG 系统。

Nemotron 3 Nano 30B A3B

以下资源准确概述了 NVIDIA 研究团队如何训练 NVIDIA Nemotron 3 Nano 模型。从预训练到最终模型检查点,所有内容都是开放的,供您使用和学习。

Nemotron 3 Super 120B A3B

以下资源概述了 NVIDIA 用于生成 Nemotron 3 Super 模型的过程。

使用 RAG 和 Nemotron 的安全护栏构建语音智能体

在本教程中,您将学习如何使用 Nemotron 模型构建具有安全护栏的语音驱动 RAG 智能体。最后,您的智能体将聆听语音输入,在您的数据中找到自己,在长上下文中进行推理,应用护栏,并将安全答案作为音频返回。


在托管与自管理基础设施上运行 Nemotron 模型

运行、扩展和评估 Nemotron 模型,无需使用领先推理服务提供商的托管端点来管理基础设施。借助优化的性能和成本效益,跨云和数据中心环境快速试验、基准测试和部署模型。

专注于构建代理式 AI 应用,同时提供商处理优化的运行时、弹性扩展和生产就绪型部署路径,以便您可以更快地从原型设计过渡到生产。

可用提供商:

您还可以通过以下发现和访问渠道探索 Nemotron 模型的详细信息、文档和访问路径:

  • LM Studio —内置界面与兼容 OpenAI 的 API
  • Ollama—提供 CLI 与对开发者友好的本地 API
  • llama.cpp—轻量高性能的推理引擎(可在 Hugging Face 获取 GGUF 模型)
  • Unsloth—在本地高效进行微调与推理,兼顾内存占用与性能

如果你希望针对自身用例优化推理栈,可以从这些使用指南入手:vLLM 使用 Cookbook、SGLang 使用 Cookbook 或 TensorRT-LLM 使用 Cookbook。

你也可以通过以下探索与访问渠道,了解 Nemotron 模型的详细信息、文档以及访问路径:


更多资源

代表社区的装饰性图像

NVIDIA 开发者论坛

试用 NVIDIA Nemotron 教程

试用 NVIDIA Nemotron 教程


伦理道德注意事项

NVIDIA 认为值得信赖的 AI 是一项共同的责任,我们制定了相关政策和实践,以支持各种 AI 应用的开发。根据我们的服务条款下载或使用此模型时,开发者应与其内部模型团队合作,确保此模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。

NVIDIA 与 Google DeepMind 合作,对 NVIDIA API Catalog 生成的视频进行了水印。

有关此模型道德因素的更多详细信息,请参阅系统卡、模型卡 可解释性、偏差、安全性和隐私子卡。请单击此处报告安全漏洞或 NVIDIA AI 问题。

立即开始使用 NVIDIA Nemotron

立即试用