NVIDIA Nemotron
NVIDIA Nemotron™ 是一系列最开放的模型,配备开放的权重、训练数据和方案,提供业内领先的效率和准确性,用于构建专用的 AI 代理。
NVIDIA Nemotron 模型
Nemotron 模型具有极高的透明度——这些模型所使用的训练数据和权重均在 Hugging Face 上公开,供开发者在投入生产前进行评估。描述重现这些模型所需步骤的技术报告也可免费获取。
全新的 Nemotron 3 模型家族提供高效的开放模型,采用混合式 Mamba‑Transformer MoE 架构并支持 100 万 Token 上下文,在复杂且高吞吐量的智能体式 AI 应用中实现出色的准确度表现。
模型端点可以通过 vLLM、SGLang 和 llama.cpp 等开源框架轻松部署,也提供作为 NVIDIA NIM™ 微服务形式,方便在任何平台上进行部署。
Nemotron 推理模型针对各种平台进行了优化:
Nano 在面向特定智能体任务场景中,以高准确率兼顾成本效率。
Super 针对多智能体推理场景,提供较高的推理准确率。
Ultra 面向对推理准确率要求更高的应用而设计,可满足更严苛的推理表现需求。
此外,这些模型具备较高吞吐能力,使智能体能够更快完成思考过程,生成更高准确度的响应,同时有效降低推理成本。
Nemotron 模型还适用于视觉理解、信息检索、语音以及安全等多种场景。
Nemotron 3 Nano 30B A3B
- Nemotron 3 Nano 相较 Nemotron 2 Nano,提供约 4 倍的吞吐速度。
- 在代码生成、推理、数学以及长上下文任务上具备领先的准确率
- 非常适合用于在特定任务中兼顾高准确率与高效率的智能体场景
Llama Nemotron Super 49B
高准确性和吞吐量
非常适合高效的深度研究智能体
适用于单一数据中心 GPU 部署
Llama Nemotron Ultra 253B
非常适合需要超高准确性的多智能体企业工作流程,例如客户服务自动化、供应链管理和 IT 安全
适用于数据中心规模的部署
Llama Nemotron Nano VL 12B
出色的视觉语言准确性
专为文档智能和信息提取而设计
适用于单数据中心 GPU 部署
Nemotron RAG
行业领先的提取、嵌入和重排序模型
具有出色准确性的文本问答和通道检索
在 ViDoRe V1、ViDoRe V2 和 MTEB VisualDocumentRetrieval 排行榜上名列前茅
Nemotron Safety
领先的多语种内容安全模型,可增强 LLM 审核和文化一致性
支持全球企业级 LLM 的安全性和合规性
Nemotron Speech
- 一系列开放模型,专为高吞吐、超低延迟的自动语音识别(ASR)、文本转语音(TTS)以及神经机器翻译(NMT)进行优化,面向智能体式 AI 应用场景。
NVIDIA Nemotron 数据集
Nemotron 数据集是专为提升大语言模型推理能力而设计的最大规模合成数据集之一。该集合包含超过 9 万亿个标记(tokens)的预训练和后训练数据,涵盖数学、代码、科学知识、函数调用、指令执行和多步骤推理任务。
生成、筛选和策划如此大规模的数据工作量极大。公开数据集使研究人员和开发者可以更透明地训练、微调和评估模型,从而加速模型的开发和部署。
Nemotron Personas 数据集
基于真实世界人口、地理和文化数据的完全合成、隐私安全的用户角色。这是 NVIDIA 不断增长的全球主权 AI 数据集的一部分,其中包含来自美国、日本和印度的数据集。
Nemotron Safety 数据集
高质量精选数据集,用于支撑多语言内容安全、复杂策略推理与威胁感知型 AI,覆盖现代 AI 助手所需的审核数据与基于音频的安全信号。
Nemotron RL 数据集
使用与 Nemotron 同源的强化学习(RL)数据训练模型,涵盖多轮对话轨迹、工具调用与偏好信号,覆盖代码、数学、推理和智能体任务,助力构建自适应、可靠的真实世界 AI 系统。
开发者工具
NVIDIA TensorRT-LLM
TensorRT™-LLM 是一个开源库,旨在为 NVIDIA GPU 上的大型语言模型(如 Nemotron)提供高性能、实时推理优化。该开源库托管在 TensorRT-LLM GitHub 仓库,包含模块化的 Python 运行时环境、支持 PyTorch 原生模型创建的功能,以及稳定的生产环境 API。
入门资源
借助 NVIDIA Nemotron Nano 2 9B 实现高准确度推理,强效助力边缘 AI
NVIDIA Nemotron Nano 2 9B 采用 Transformer-Mamba 混合架构和可配置的思考预算,能够以领先的准确性和效率将推理能力引入边缘设备,因此您可以根据自己的实际需求,调整准确性、吞吐量和成本。
使用 NVIDIA Llama Nemotron Super 1.5 构建更准确、更高效的 AI 智能体
AI 智能体现在可以解决多步骤问题,编写生产级代码,并充当多个领域的通用助手。但为了充分发挥其潜力,这些系统需要先进的推理模型,而不会过于昂贵。
入门套件
通过使用 NVIDIA Nemotron 模型为下游用例开发自定义智能体,开始解决 AI 挑战。探索实施脚本、解说员博客以及 AI 开发各个阶段的更多操作方法文档。
使用 Nemotron 构建报告生成智能体
研讨会将指导开发者使用 NVIDIA Nemotron 和 LangGraph 构建报告生成智能体,重点关注 AI 智能体的四个核心注意事项:模型、工具、内存和状态以及路由。
使用 Nemotron 构建 RAG 智能体
在此自定进度式研讨会中,深入了解代理检索增强生成 (RAG) 核心原则,包括 NVIDIA Nemotron 模型系列,并学习如何在一站式便携式开发环境中使用 LangGraph 构建自己的定制、可共享代理式 RAG 系统。
NVIDIA Launchable: 构建智能体研讨会
Nemotron Nano 2 9B
以下资源准确概述了 NVIDIA 研究团队如何训练 NVIDIA Nemotron Nano 9B V2 模型。从预训练到最终模型检查点,所有内容都是开放的,可供您使用和学习。
Llama Nemotron Super 1.5 49B
以下资源概述了 NVIDIA 研究团队用于生产 Llama 3.3 Nemotron Super 49B V1.5 的流程。
在推理服务提供商上运行 Nemotron 模型
借助头部推理服务提供商提供的托管端点,您可以在无需自建与运维基础设施的前提下运行、扩展和评估 Nemotron 模型,快速在云端与数据中心环境中完成实验、基准测试与部署,并兼顾性能优化与成本效率。
您可以专注于构建智能体式 AI 应用,由服务提供商负责优化运行时、弹性扩容与面向生产环境的部署路径,帮助项目从原型验证快速走向生产落地。
可用的服务提供商包括:
您还可以通过以下渠道进一步了解 Nemotron 模型详情、文档与接入方式:
更多资源
AI 伦理考量
NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持开发各种 AI 应用。根据我们的服务条款下载或使用此模型时,开发者应与其内部模型团队合作,确保此模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。
NVIDIA 与 Google DeepMind 合作,对 NVIDIA API Catalog 中生成的视频进行了水印。
有关此模型道德考虑因素的更多详细信息,请参阅系统卡,模型卡可解释性、偏差、安全性和隐私性子卡。请在此反馈安全漏洞或 NVIDIA AI 相关问题。