NVIDIA Nemotron 3 Nano Omni 在单个高效开放模型中助力多模态智能体推理

代理式系统通常会在单个感知到动作循环中跨屏幕、文档、音频、视频和文本进行推理。但是，它们仍然依赖于碎片化的模型链，即视觉、音频和文本的单独堆栈。这增加了推理跳跃和编排的复杂性，推高了推理成本，同时削弱了跨模态上下文的一致性。

NVIDIA Nemotron 3 Nano Omni，是 Nemotron 3 系列的全新成员，将统一的多模态推理整合到一个高效且开放的单一模型中。该模型旨在取代分散的视觉、语言与音频堆叠方案，作为代理系统中实现多模态感知和上下文理解的智能子单元。

这样，智能体可以在单个共享的感知到动作循环中感知和推理视觉、音频和文本输入，从而提高收性并降低编排复杂性和推理成本。

它在 MMlongbench-Doc 和 OCRBenchV2 等文档智能榜单上表现出色，准确率领先，同时在视频与音频理解、WorldSense、DailyOmni 及 VoiceBench 方面也位居前列。

除了准确性，MediaPerf 作为一个开放的行业基准，用于评估视频理解模型在真实媒体数据和实际生产任务下的质量、成本和吞吐量表现。结果显示，Nemotron 3 Nano Omni 在每项任务中均实现了最高吞吐量，并在视频级标注任务中达到最低推理成本。点击此博文了解详情。

Nemotron 3 Nano Omni 基于 30B+ A3B 混合专家模型 (MoE) 架构构建，可激活每个任务和模式所需的专家，以大规模实现高吞吐量和强大的多模态性能。借助完全开放的权重、数据集和方法，开发者可以在本地、云和企业环境中自定义、部署和集成多模态子智能体。

视频 1. NVIDIA Nemotron 3 Nano Omni 在开放式 MoE 架构中统一了视频、音频、图像和文本

出色的效率和准确性

Nemotron 3 Nano Omni 支持跨多个 GPU 架构 (包括 NVIDIA Ampere、NVIDIA Hopper 和 NVIDIA Blackwell GPU 系列) 以及热门推理引擎 (包括 vLLM 和 NVIDIA TensorRT-LLM) 的硬件感知优化推理。

它支持 FP8 和 NVFP4 量化，高效视频采样，以及 NVIDIA® 优化内核，可实现可预测的低延迟推理。结合基于卷积 3D+ 的时空处理，这些优化能够在从工作站到数据中心和云部署的各类 GPU 上，持续实现多模态感知，并降低计算成本。

Nemotron 3 Nano Omni 专为驱动子智能体而设计，可在更大的智能体系统中实现感知、上下文维护和多模态理解。它与执行和规划模型 (例如 NVIDIA Nemotron 3 Super 和 NVIDIA Nemotron 3 Ultra) 完全集成，可保持智能体架构的模块化、高效率和可扩展性。

以下基准测试用于评估固定交互性值下的性能，该值是指每个用户继续体验响应灵敏的实时交互的点。评估并未最大化原始并发性，而是在 x 轴上保持每个用户的吞吐量 (每个用户每秒词元) 常数，并测量在不降低用户体验的情况下可以维持的系统总吞吐量。

对于相同交互性值下的视频推理，Nemotron 3 Nano Omni 可维持更高的聚合吞吐量，与其他开放 Omni 模型相比，可将有效系统容量提高约 9.2%。

对于相同交互性值下的多文档推理，Nemotron 3 Nano Omni 可维持更高的聚合吞吐量，与其他开放 Omni 模型相比，可将有效系统容量提高约 7.4%。

在 Blackwell GPU 上，采用 NVFP4 量化的 Nemotron 3 Nano Omni 在开放式全模态模型中实现了最高的吞吐量，适用于涉及复杂文档、长视野推理和大型视频批量的企业级工作负载。这些功能使其非常适合金融、医疗健康、科学发现、媒体和娱乐领域的代理式应用，以及大规模处理大量视频和音频内容的广告技术平台。

这种改进并非合成基准测试结果。它反映了在真实代理式工作负载中部署 Nemotron 3 Nano Omni 时的架构效率。通过将多模态感知统一到单个模型循环中，并仅激活每个模态所需的专家，它可以在不牺牲准确性或响应能力的情况下，将原始模型效率转换为更多并发代理、更高的吞吐量和更低的单项任务成本。

Nemotron 3 Nano Omni 的功能是什么？

Nemotron 3 Nano Omni 是一款轻量级 30B-A3B 模型，专为具有高吞吐量的跨模态推理而设计。

模型设计：Nemotron 3 Nano Omni 架构

Nemotron 3 Nano Omni 架构将多模态感知和推理引入单个 30B 混合 MoE 模型，原生支持文本、图像、视频和音频输入，同时在智能体循环中维护统一的多模态上下文，无需单独的视觉、语音和语言模型。

混合 MoE 核心架构: 结合用于序列处理和内存效率的 Mamba 层，以及用于精确推理的 Transformer 层。该设计可显著提升吞吐量，使内存和计算效率最高提升 4 倍，适用于次级智能体角色。
时空视觉处理与高效视频采样：为有效处理视频帧，Nemotron 3 Nano Omni 采用 3D 卷积来捕捉帧间的运动信息。在推理过程中，高效视频采样（EVS）层将来自多帧的高密度视觉词元压缩为一个简洁的集合，避免视觉词元过多导致 LLM 的上下文窗口过载。
多模态架构
- 文本： Nemotron 3 Nano Omni 模型采用强大的文本模型作为核心解码器，在保留基础模型语言能力的同时，围绕后文详述的文本训练跨模态桥接器。这种方法降低了多模态训练的不稳定性与成本，同时提升了连续感知任务的效率与准确性。
- 音频: NVIDIA Granary、Music Flamingo 和 Parakeet
  音频集成基于 NVIDIA Parakeet 编码器及专用数据集构建，不仅限于简单的语音转录，具备更强的音频理解能力。
- 视觉: 为应对高分辨率图像与动态视频的处理需求，Nemotron 3 Nano Omni 采用分层压缩策略，结合 C-RADIOv4-H 与基于编码器的视频摘要技术。
  - C-RADIOv4-H: 采用 C-RADIOv4-H 基础模型处理高分辨率图像。该模型作为高性能视觉编码器，能够在保留高分辨率细节与实现高效计算之间取得良好平衡，并可聚焦于图像的特定区域，从而保持 OCR 的精度。

训练方法：跨模态数据和训练

Nemotron 3 Nano Omni 模型经过跨模态数据和指令微调训练，专为现实世界智能体环境设计。该模型可遵循涵盖图像、视频、音频和文本的指令，在更大型的智能体系统中承担多模态感知与上下文子智能体的功能。所有训练阶段均使用 NVIDIA NeMo Evaluator 库进行评估。

适配器和编码器训练: 涵盖文档、屏幕截图、音频和视频的大规模数据，可在企业感知任务中实现强大的泛化。
监督式微调（SFT）： 采用 NVIDIA Megatron-LM 实现的多阶段工作流，逐步扩展模态覆盖范围，从视觉语言和音频编码器入手，逐步增加上下文长度（16K → 49K → 262K），以构建统一的跨模态指令遵循能力。
后SFT强化学习: 基于NVIDIA NeMo Gym和NeMo RL，在25种环境配置下实现多环境强化学习，部署超过230万个环境，显著提升多模态任务与智能体工作流的鲁棒性。

按设计开放：权重、数据和配方

Nemotron 3 Nano Omni 建立在透明的基础之上，提供对权重、数据集和训练方法的完整访问权限。借助这种开源方法，开发者可以在本地自定义模型，在不影响隐私和安全的情况下确保峰值性能。

模型权重
Nemotron 3 Nano Omni 的完整参数检查点可在 Hugging Face 上获取，且该模型也将以 NVIDIA NIM 微服务的形式提供。NVIDIA Nemotron 开放模型许可证使企业能够灵活掌控数据，并支持在任意位置部署。

端到端训练与评估方案
为 Nemotron 3 Nano Omni 提供了完整的预训练、后训练及评估流程，覆盖从预训练到模型对齐的各个环节。开发者可借此复现训练过程，针对特定领域调整变体配置，或将其作为自定义混合架构研究的起点。

部署指南和方法
查看这些适用于主要推理引擎的即用型指南，其中每个指南都包含配置模板、性能调优指南和参考脚本：

vLLM Cookbook：适用于 Nemotron 3 Nano Omni 的高吞吐量连续批处理和流式传输。
SGLang Cookbook：针对多智能体工具调用工作负载优化的快速、轻量级推理。
NVIDIA TensorRT LLM Cookbook：采用先进的 MoE 内核，全面优化 TensorRT LLM 引擎，实现生产级、低延迟部署。
Dynamo 部署方案：支持多模态 Nemotron 3 Nano Omni 的推理服务、智能路由、多层 KV 缓存及自动扩展。

微调指南和食谱
还提供适用于不同训练阶段的指南，每个指南都包含配置模板、性能调优指南和参考脚本：

使用 Nemotron 3 Nano Omni 的端到端多模态文档智能指南指南。
使用 NVIDIA NeMo Megatron-Bridge 在 Nemotron 3 Nano Omni 上运行 LoRA SFT。
使用 NVIDIA NeMo Automodel 在 Nemotron 3 Nano Omni 上运行 LoRA SFT。
使用 NeMo RL recipe 和 cookbook 在 Nemotron 3 Nano Omni 上运行 GRPO/MPO。

NVIDIA 推出了一个全面的开放数据堆栈
依托 Nemotron 3 Nano 和 Nemotron 3 Super，专为基于文本的代理式 AI 设计，包含超过 10 万亿的预训练词元、4000 多万个后训练样本、20 多种强化学习环境配置，以及完整的训练方法，全部内容均已公开。

Nemotron 3 Nano Omni 将这一承诺从文本扩展到多模态，为文本、音频、图像和视频提供同等程度的开放性。

适配器和编码器的训练规模： 1270亿词元，涵盖文本+图像、文本+视频、文本+音频，以及文本+视频+音频的混合模式，真实反映现实世界中多模态与单模态数据的交互。
现实世界任务的后训练： 约 1.24 亿个精选样本，涵盖多种多模态组合（文本+音频、文本+图像、文本+视频，以及文本+视频+音频），结构化设计用于支持文档推理、计算机操作和长周期工作流程。
用于智能体训练的强化学习环境：包含20个RL数据集，覆盖25个环境中的5项新多模态任务——视觉定位、图表与文档理解、视觉导向的STEM问题、视频理解及自动语音识别，将Nemotron的强化学习工作流从文本拓展至视觉与音频领域。

NVIDIA NeMo Data Designer 合成数据生成

此外，还提供了基于 NVIDIA NeMo Data Designer 构建的合成数据生成（SDG）工作流，用于在复杂的长文档理解任务中对 Nemotron 3 Nano Omni 进行后训练。通过迭代式的工作流开发、训练和故障分析，最终将一系列生成约 1140 万个合成视觉问答对（450 亿词元）的工作流整合到 Nemotron 3 Nano Omni 的训练数据混合中。

深入了解迭代式 SDG 方法、成功与否，以及整套工作流方案。SDG 工作流也可作为数据设计师的参考方案提供参考方案。

图像训练数据已通过许可方式发布在 huggingface.co/datasets/nvidia/Nemotron-Image-Training-v3。借助底层图像数据和模型，开发者可对多模态训练流程进行检查、调整和扩展。对于过去长期将视觉、语音和文档数据堆栈彼此隔离的企业，Omni 将这些数据整合到一个统一的、可用于生产的平台，显著降低了跨模态部署代理式 AI 的门槛。

由 Nemotron 3 Nano Omni 提供支持的 Claws

当与 NVIDIA OpenShell 运行时和各种智能体结合使用时，Nemotron 3 Nano Omni 可以改变与视频内容的交互：

原生视频理解: 与依赖转录且容易产生幻觉的传统系统不同，Nemotron 3 Nano Omni 采用原生视觉-时间流技术（结合 3D 卷积和高效视频采样），直接分析屏幕上的内容。这实现了近乎实时的高保真转录与摘要，能够捕捉纯音频模型所忽略的视觉信息（如图表或屏幕文字）。

注重隐私的 Claw 智能体: 通过 NemoClaw 运行该系统，用户视频数据始终保留在本地基础设施中，不会外泄。 NVIDIA NemoClaw 在 NVIDIA OpenShell 沙盒环境中，经由隐私路由器部署 OpenClaw 代理，确保敏感信息的安全；同时，由 Nemotron 3 Nano Omni 驱动的子代理负责执行多模态理解等专业任务。

精准问答: 借助先进的多模态推理能力，用户可针对视频内容提出复杂且开放性的问题。该智能体利用 Nemotron 3 Nano Omni 的长上下文窗口，在不丢失关键信息的前提下，提供有依据的准确回答。

请参阅以下指南，详细了解如何在 NemoClaw 沙盒中使用 OpenClaw 运行 Nemotron 3 Nano Omni，以及使用 OpenShell 运行 Hermes Agent。从本地部署到现实世界的视频推理，全面掌握实际操作流程。

开始使用 Nemotron 3 Nano Omni

Nemotron 3 Nano Omni 现已推出，这是一种开放、高效的多模态模型，专为智能体工作负载中的子智能体提供支持而构建。您可以通过以下方式访问：

Hugging Face 和 OpenRouter。
借助 SGLang 和 vLLM 进行推理。
本地运行时和工具（如 Ollama、llama.cpp、推理快照、LM Studio 和 Unsloth）可用于在设备上运行 GGUF 检查点。
主要云服务提供商，包括 Amazon Web Services 和 Oracle Cloud Infrastructure。即将登陆 Microsoft Foundry。您可浏览模型目录，并在 Azure 环境中直接使用 Nemotron 模型。
Baseten、Baseten、Canonical、Clarifai、DeepInfra、Eigen AI、fal.AI、FriendliAI 和 Fireworks AI 等推理服务提供商。
NVIDIA 云合作伙伴，包括 BitDeer AI, Crusoe, DigitalOcean, GMI Cloud, Lightning AI, Nebius, Together AI, 和 Vultr.
适用于本地和混合企业部署的 Dell Technologies。
NVIDIA NIM 提供经 NVIDIA® 优化的体验，可轻松从 NVIDIA 官网 build.nvidia.com 启动优化后的可移植推理，并在工作站、云端等任意环境中运行推理。
NeMo Curator，用于使用此 recipe 创建视频字幕工作流。
Jetson AI 实验室为开发者提供教程和模型性能测试，帮助运行经过优化的 Nemotron 模型，用于构建机器人和边缘 AI 应用。