精选

NVIDIA Nemotron 3 Nano Omni 在单个高效开放模型中助力多模态智能体推理

代理式系统通常会在单个感知到动作循环中跨屏幕、文档、音频、视频和文本进行推理。但是,它们仍然依赖于碎片化的模型链,即视觉、音频和文本的单独堆栈。这增加了推理跳跃和编排的复杂性,推高了推理成本,同时削弱了跨模态上下文的一致性。

NVIDIA Nemotron 3 Nano Omni,是 Nemotron 3 系列的全新成员,将统一的多模态推理整合到一个高效且开放的单一模型中。该模型旨在取代分散的视觉、语言与音频堆叠方案,作为代理系统中实现多模态感知和上下文理解的智能子单元。

这样,智能体可以在单个共享的感知到动作循环中感知和推理视觉、音频和文本输入,从而提高收性并降低编排复杂性和推理成本。

它在 MMlongbench-DocOCRBenchV2 等文档智能榜单上表现出色,准确率领先,同时在视频与音频理解、WorldSenseDailyOmniVoiceBench 方面也位居前列。

除了准确性,MediaPerf 作为一个开放的行业基准,用于评估视频理解模型在真实媒体数据和实际生产任务下的质量、成本和吞吐量表现。结果显示,Nemotron 3 Nano Omni 在每项任务中均实现了最高吞吐量,并在视频级标注任务中达到最低推理成本。点击此博文了解详情。

Nemotron 3 Nano Omni 基于 30B+ A3B 混合专家模型 (MoE) 架构构建,可激活每个任务和模式所需的专家,以大规模实现高吞吐量和强大的多模态性能。借助完全开放的权重、数据集和方法,开发者可以在本地、云和企业环境中自定义、部署和集成多模态子智能体。

视频 1. NVIDIA Nemotron 3 Nano Omni 在开放式 MoE 架构中统一了视频、音频、图像和文本

出色的效率和准确性

Nemotron 3 Nano Omni 支持跨多个 GPU 架构 (包括 NVIDIA Ampere、NVIDIA Hopper 和 NVIDIA Blackwell GPU 系列) 以及热门推理引擎 (包括 vLLM 和 NVIDIA TensorRT-LLM) 的硬件感知优化推理。

它支持 FP8 和 NVFP4 量化,高效视频采样,以及 NVIDIA® 优化内核,可实现可预测的低延迟推理。结合基于卷积 3D+ 的时空处理,这些优化能够在从工作站到数据中心和云部署的各类 GPU 上,持续实现多模态感知,并降低计算成本。

Nemotron 3 Nano Omni 专为驱动子智能体而设计,可在更大的智能体系统中实现感知、上下文维护和多模态理解。它与执行和规划模型 (例如 NVIDIA Nemotron 3 Super 和 NVIDIA Nemotron 3 Ultra) 完全集成,可保持智能体架构的模块化、高效率和可扩展性。

以下基准测试用于评估固定交互性值下的性能,该值是指每个用户继续体验响应灵敏的实时交互的点。评估并未最大化原始并发性,而是在 x 轴上保持每个用户的吞吐量 (每个用户每秒词元) 常数,并测量在不降低用户体验的情况下可以维持的系统总吞吐量。

对于相同交互性值下的视频推理,Nemotron 3 Nano Omni 可维持更高的聚合吞吐量,与其他开放 Omni 模型相比,可将有效系统容量提高约 9.2%。

对于相同交互性值下的多文档推理,Nemotron 3 Nano Omni 可维持更高的聚合吞吐量,与其他开放 Omni 模型相比,可将有效系统容量提高约 7.4%。

在 Blackwell GPU 上,采用 NVFP4 量化的 Nemotron 3 Nano Omni 在开放式全模态模型中实现了最高的吞吐量,适用于涉及复杂文档、长视野推理和大型视频批量的企业级工作负载。这些功能使其非常适合金融、医疗健康、科学发现、媒体和娱乐领域的代理式应用,以及大规模处理大量视频和音频内容的广告技术平台。

这种改进并非合成基准测试结果。它反映了在真实代理式工作负载中部署 Nemotron 3 Nano Omni 时的架构效率。通过将多模态感知统一到单个模型循环中,并仅激活每个模态所需的专家,它可以在不牺牲准确性或响应能力的情况下,将原始模型效率转换为更多并发代理、更高的吞吐量和更低的单项任务成本。

Nemotron 3 Nano Omni 的功能是什么?

Nemotron 3 Nano Omni 是一款轻量级 30B-A3B 模型,专为具有高吞吐量的跨模态推理而设计。

模型设计:Nemotron 3 Nano Omni 架构

Nemotron 3 Nano Omni 架构将多模态感知和推理引入单个 30B 混合 MoE 模型,原生支持文本、图像、视频和音频输入,同时在智能体循环中维护统一的多模态上下文,无需单独的视觉、语音和语言模型。

  • 混合 MoE 核心架构: 结合用于序列处理和内存效率的 Mamba 层,以及用于精确推理的 Transformer 层。该设计可显著提升吞吐量,使内存和计算效率最高提升 4 倍,适用于次级智能体角色。
  • 时空视觉处理与高效视频采样:为有效处理视频帧,Nemotron 3 Nano Omni 采用 3D 卷积来捕捉帧间的运动信息。在推理过程中,高效视频采样(EVS)层将来自多帧的高密度视觉词元压缩为一个简洁的集合,避免视觉词元过多导致 LLM 的上下文窗口过载。
  • 多模态架构
    • 文本: Nemotron 3 Nano Omni 模型采用强大的文本模型作为核心解码器,在保留基础模型语言能力的同时,围绕后文详述的文本训练跨模态桥接器。这种方法降低了多模态训练的不稳定性与成本,同时提升了连续感知任务的效率与准确性。
    • 音频: NVIDIA Granary、Music Flamingo 和 Parakeet
      音频集成基于 NVIDIA Parakeet 编码器及专用数据集构建,不仅限于简单的语音转录,具备更强的音频理解能力。
    • 视觉: 为应对高分辨率图像与动态视频的处理需求,Nemotron 3 Nano Omni 采用分层压缩策略,结合 C-RADIOv4-H 与基于编码器的视频摘要技术。
      • C-RADIOv4-H: 采用 C-RADIOv4-H 基础模型处理高分辨率图像。该模型作为高性能视觉编码器,能够在保留高分辨率细节与实现高效计算之间取得良好平衡,并可聚焦于图像的特定区域,从而保持 OCR 的精度。

训练方法:跨模态数据和训练

Nemotron 3 Nano Omni 模型经过跨模态数据和指令微调训练,专为现实世界智能体环境设计。该模型可遵循涵盖图像、视频、音频和文本的指令,在更大型的智能体系统中承担多模态感知与上下文子智能体的功能。所有训练阶段均使用 NVIDIA NeMo Evaluator 库进行评估。

  • 适配器和编码器训练: 涵盖文档、屏幕截图、音频和视频的大规模数据,可在企业感知任务中实现强大的泛化。
  • 监督式微调(SFT): 采用 NVIDIA Megatron-LM 实现的多阶段工作流,逐步扩展模态覆盖范围,从视觉语言和音频编码器入手,逐步增加上下文长度(16K → 49K → 262K),以构建统一的跨模态指令遵循能力。
  • 后SFT强化学习: 基于NVIDIA NeMo GymNeMo RL,在25种环境配置下实现多环境强化学习,部署超过230万个环境,显著提升多模态任务与智能体工作流的鲁棒性。

按设计开放:权重、数据和配方

Nemotron 3 Nano Omni 建立在透明的基础之上,提供对权重、数据集和训练方法的完整访问权限。借助这种开源方法,开发者可以在本地自定义模型,在不影响隐私和安全的情况下确保峰值性能。

模型权重
Nemotron 3 Nano Omni 的完整参数检查点可在 Hugging Face 上获取,且该模型也将以 NVIDIA NIM 微服务 的形式提供。NVIDIA Nemotron 开放模型许可证使企业能够灵活掌控数据,并支持在任意位置部署。

端到端训练与评估方案
为 Nemotron 3 Nano Omni 提供了完整的预训练后训练评估流程,覆盖从预训练到模型对齐的各个环节。开发者可借此复现训练过程,针对特定领域调整变体配置,或将其作为自定义混合架构研究的起点。

部署指南和方法
查看这些适用于主要推理引擎的即用型指南,其中每个指南都包含配置模板、性能调优指南和参考脚本:

  • vLLM Cookbook:适用于 Nemotron 3 Nano Omni 的高吞吐量连续批处理和流式传输。
  • SGLang Cookbook:针对多智能体工具调用工作负载优化的快速、轻量级推理。
  • NVIDIA TensorRT LLM Cookbook:采用先进的 MoE 内核,全面优化 TensorRT LLM 引擎,实现生产级、低延迟部署。
  • Dynamo 部署方案: 支持多模态 Nemotron 3 Nano Omni 的推理服务、智能路由、多层 KV 缓存及自动扩展。

微调指南和食谱
还提供适用于不同训练阶段的指南,每个指南都包含配置模板、性能调优指南和参考脚本:

  • 使用 Nemotron 3 Nano Omni 的端到端多模态文档智能指南 指南
  • 使用 NVIDIA NeMo Megatron-Bridge 在 Nemotron 3 Nano Omni 上运行 LoRA SFT。
  • 使用 NVIDIA NeMo Automodel 在 Nemotron 3 Nano Omni 上运行 LoRA SFT。
  • 使用 NeMo RL recipecookbook 在 Nemotron 3 Nano Omni 上运行 GRPO/MPO。

NVIDIA 推出了一个全面的开放数据堆栈
依托 Nemotron 3 Nano 和 Nemotron 3 Super,专为基于文本的代理式 AI 设计,包含超过 10 万亿的预训练词元、4000 多万个后训练样本、20 多种强化学习环境配置,以及完整的训练方法,全部内容均已公开。

Nemotron 3 Nano Omni 将这一承诺从文本扩展到多模态,为文本、音频、图像和视频提供同等程度的开放性。

  • 适配器和编码器的训练规模: 1270亿词元,涵盖文本+图像、文本+视频、文本+音频,以及文本+视频+音频的混合模式,真实反映现实世界中多模态与单模态数据的交互。
  • 现实世界任务的后训练: 约 1.24 亿个精选样本,涵盖多种多模态组合(文本+音频、文本+图像、文本+视频,以及文本+视频+音频),结构化设计用于支持文档推理、计算机操作和长周期工作流程。
  • 用于智能体训练的强化学习环境:包含20个RL数据集,覆盖25个环境中的5项新多模态任务——视觉定位、图表与文档理解、视觉导向的STEM问题、视频理解及自动语音识别,将Nemotron的强化学习工作流从文本拓展至视觉与音频领域。

NVIDIA NeMo Data Designer 合成数据生成

此外,还提供了基于 NVIDIA NeMo Data Designer 构建的合成数据生成(SDG) 工作流,用于在复杂的长文档理解任务中对 Nemotron 3 Nano Omni 进行后训练。通过迭代式的工作流开发、训练和故障分析,最终将一系列生成约 1140 万个合成视觉问答对(450 亿词元)的工作流整合到 Nemotron 3 Nano Omni 的训练数据混合中。

深入了解迭代式 SDG 方法、成功与否,以及整套工作流方案。SDG 工作流也可作为数据设计师的参考方案提供 参考方案

图像训练数据已通过许可方式发布在 huggingface.co/datasets/nvidia/Nemotron-Image-Training-v3。借助底层图像数据和模型,开发者可对多模态训练流程进行检查、调整和扩展。对于过去长期将视觉、语音和文档数据堆栈彼此隔离的企业,Omni 将这些数据整合到一个统一的、可用于生产的平台,显著降低了跨模态部署代理式 AI 的门槛。

由 Nemotron 3 Nano Omni 提供支持的 Claws

当与 NVIDIA OpenShell 运行时和各种智能体结合使用时,Nemotron 3 Nano Omni 可以改变与视频内容的交互:

  • 原生视频理解: 与依赖转录且容易产生幻觉的传统系统不同,Nemotron 3 Nano Omni 采用原生视觉-时间流技术(结合 3D 卷积和高效视频采样),直接分析屏幕上的内容。这实现了近乎实时的高保真转录与摘要,能够捕捉纯音频模型所忽略的视觉信息(如图表或屏幕文字)。
  • 注重隐私的 Claw 智能体: 通过 NemoClaw 运行该系统,用户视频数据始终保留在本地基础设施中,不会外泄。 NVIDIA NemoClawNVIDIA OpenShell 沙盒环境中,经由隐私路由器部署 OpenClaw 代理,确保敏感信息的安全;同时,由 Nemotron 3 Nano Omni 驱动的子代理负责执行多模态理解等专业任务。
  • 精准问答: 借助先进的多模态推理能力,用户可针对视频内容提出复杂且开放性的问题。该智能体利用 Nemotron 3 Nano Omni 的长上下文窗口,在不丢失关键信息的前提下,提供有依据的准确回答。

请参阅以下指南,详细了解如何在 NemoClaw 沙盒中使用 OpenClaw 运行 Nemotron 3 Nano Omni,以及使用 OpenShell 运行 Hermes Agent。从本地部署到现实世界的视频推理,全面掌握实际操作流程。

开始使用 Nemotron 3 Nano Omni

Nemotron 3 Nano Omni 现已推出,这是一种开放、高效的多模态模型,专为智能体工作负载中的子智能体提供支持而构建。您可以通过以下方式访问:

如需深入了解模型架构和设计,请参阅 Nemotron 3 Nano Omni 技术报告

访问 Nemotron 开发者页面以获取入门资源。在 Hugging Face 上探索开放 Nemotron 模型与数据集,以及 Blueprintsbuild.nvidia.com

Nemotron 直播教程,以及在 NVIDIA 论坛 上与开发者社区互动。

标签