模拟/建模/设计

借助 NVIDIA Cosmos 3 开发物理 AI 推理模型、世界模型和动作模型


物理 AI
系统必须先了解现实世界,然后才能在其中发挥作用。机器人、智能汽车和智能空间需要了解其环境中发生的情况,预测接下来可能发生的情况,并针对特定环境、实施和任务生成操作。

NVIDIA Cosmos 3 是物理 AI 的前沿基础模型,将物理推理、世界生成和动作生成整合到一个开放模型中。

NVIDIA 正在开源 Cosmos 3 模型、训练脚本、部署工具和数据集,使物理 AI 开发更加开放和可复制。这篇博文介绍了 Cosmos 3 的基础知识,重点介绍了技术报告中的关键概念,指导了整个技术工作流程,并展示了构建机器人操作系统、智能汽车和仓库监控解决方案的团队如何开始工作。

此版本的主要亮点包括:

  • NVIDIA Cosmos 3 Nano 和 NVIDIA Cosmos 3 Super 模型检查点在 Hugging Face 上,代码位于 GitHub 上。
  • 为机器人和自动驾驶等物理 AI 应用打开数据集。
  • 打开后训练脚本,根据您的领域调整 Cosmos 3。
  • Cosmos NIM 微服务可在 NVIDIA GPU 上实现轻松、优化的部署。

Cosmos 3 的新功能

Previous Cosmos 将分离的世界生成、物理理解和受控场景生成引入不同的模型和工作流。此版本通过围绕两座塔构建的 Mixture-of-Transformers (MoT) 架构统一了这些功能。

  • 推理塔: 一个 视觉语言模型 (VLM) ,用于解释图像、视频和文本等多模态观察结果。该塔使用自回归架构来解释输入,并理解运动、物体交互和其他物理环境。它是在任何一代出现之前对世界进行推理的“大脑”。
  • 生成器塔: 生成未来的观察结果和动作序列。该推理塔使用基于扩散的过程,根据推理塔的理解生成物理感知的视频和动作输出。可以单独调用推理器,但生成器始终激活两个塔,以实现引导生成。

该架构使单个模型能够执行推理和生成任务,通过消除多个模型和推理工作流之间的编排来简化开发。

选择合适的模型尺寸

目前有两种 Cosmos 3 型号:

  • Cosmos 3 Nano 是具有 160 亿个参数的紧凑型版本,并针对高效推理进行了优化。它专为在工作站级计算上运行而设计,例如用于实时机器人推理和物理 AI 应用的 NVIDIA RTX PRO 6000 GPU。
  • Cosmos 3 Super 是一个 64B 参数模型,旨在更大限度地提高质量和功能。它提供了更高的基准测试分数,并针对 NVIDIA Hopper 和 NVIDIA Blackwell GPU 上的数据中心部署,使其适合大规模合成数据生成和高级物理推理工作负载。

支持的模式

Cosmos 3 通过其统一架构支持以下输入和输出模式:

输入 输出 应用程序
文本 图像 生成符合物理学的图像
文本 | 视频 视频 罕见边缘案例视频数据生成的世界模型
文本 | 图像 视频 世界预测模型
文本 | 图像 | 视频 文本 用于推理的 VLM
行动 | 视频 | 文本 视频 动作世界模型
视频 | 文本 视频 | 行动 世界动作模型、视频动作模型、视觉语言动作模型、机器人学习策略模型
表 1. Cosmos 3 支持的输入和输出模式适用于不同的应用

面向物理 AI 的开放数据集

随着 Cosmos 3 的发布,NVIDIA 在 Hugging Face 上开源了六个合成数据生成 (SDG) 数据集。这些模型涵盖机器人、物理模拟、空间推理、人类运动、驾驶和仓库环境,可用于对 Cosmos 3 和其他模型进行后训练:

物理 AI 世界模型合成数据集包括:

NVIDIA Cosmos Human Evaluation 基准测试

NVIDIA Cosmos Human Evaluation (HUE) 框架可跨代表性领域任务评估 Cosmos 3 生成器的质量。

由于 SOTA 视频生成模型已在现有的自动化排行榜中占据了上风,因此不同版本之间的分数差异往往过于狭,无法进行有意义的比较。HUE 将评估从主观评分转变为客观事实验证,从而实现顶级模型之间的精细比较。其结果是,在全面的人工评估的支持下,为快速迭代和严格的发布决策提供更可靠的质量信号。

HUE 使用原子二进制验证来评估视频生成质量。每个生成的视频都被分解成单事实是/ 否问题,涵盖语义比对、物理定律、几何推理和视觉完整性四个维度,涵盖七个物理 AI 领域,包括机器人、智能汽车和物理。这些问题由 VLM 工作流生成,经人类专家改进,并在 Hugging Face 上以开源形式发布。

基准测试结果

Cosmos 3 已经过多个基准套件的评估,涵盖物理 AI 推理、生成质量和特定领域的性能。

推理基准测试

Cosmos 3 Super 和 Cosmos 3 Nano 分别在 32B 层和 8B 层的 VANTAGE-Bench 上遥遥领先:

  • VANTAGE-Bench:首个针对仓库、交通运输和智能空间中的真实固定摄像头镜头评估视觉语言模型的公开基准测试。
  • Traffic Anomaly Reasoning (TAR) :用于检测和推理交通画面中异常事件的新排行榜,也是 2026 年 AI City 挑战赛第 3 场赛道的官方排行榜。

生成器基准测试

Cosmos 3 是开源 SOTA,目前在 PAI-Bench、R-Bench Physics-IQ 和 RoboLab 的公共排行榜上处于领先地位:

  • 人工分析:一个基准测试平台,用于对 AI 模型的文本、图像和视频生成进行排名。Cosmos 3 是文本转图像排行榜图像转视频 (无音频) 排行榜上的领先开源模型。
  • R-Bench:用于评估机器人视频生成中基于视频的世界模型的基准测试。它通过结构一致性、物理合理性和执行完整性等子指标来评估任务完成和视觉质量。
  • PAI-Bench:评估物理 AI 在视频理解和视频生成方面的统一基准,涵盖机器人、智能汽车和物理常识等领域。
  • Physics-IQ:真实视频的基准测试,用于测试生成式视频模型是否真正理解物理原理,而不仅仅是实现逼真的视觉效果。
  • RoboLab:用于评估任务通用机器人策略的仿真基准测试。

训练方法

Cosmos 3 版本的核心组件是一套完全开放的训练方法。除了模型检查点之外,此版本还提供代码、配置和工作流,以使 Cosmos 3 适应新的领域、实施例和数据集。

监督式微调 后训练

监督式微调 (SFT) 使开发者能够根据自己的数据调整 Cosmos 3 模型。发布的方法包括针对自定义视频数据集的视觉生成后训练,以及面向机器人和物理 AI 工作流的动作导向型方法。开发者可以针对机器人、自动驾驶和仓库自动化领域的目标领域自定义 Cosmos 3。

您可以在 GitHub 上获取后训练代码和配置

动作后训练

动作后训练可使 Cosmos 3 适应动作感知型物理 AI 应用,包括前向动态、反向动态和策略生成。开发者可以使用动作标记数据对 Cosmos 3 进行后期训练。对于机器人应用,这包括几个重要的工作流程:根据机器人动作生成未来观察结果、推断观察到的演示背后的动作,以及根据当前观察结果和任务提示预测动作序列。这使得 Cosmos 3 成为世界动作建模和策略学习的坚实基础。

视频 1. 教程视频,展示如何对 Cosmos 3 进行后期训练

使用 NVIDIA NIM 微服务进行部署

Cosmos 3 模型还可作为 NVIDIA NIM 微服务 提供,用于优化生产就绪型部署。NIM 微服务将模型与经过优化的推理运行时打包在一起,无需手动调整服务基础设施即可提供高性能。与 GitHub 上的 Cosmos 3 存储库相比,NIM 微服务更易于用于推理工作流,后者是后训练工作流的首选。

Cosmos 3 Reasoner NIM 现已推出,可提供 Cosmos 3 模型的推理能力。请持续关注 Cosmos 3 生成器 NIM,它提供了 Cosmos 3 模型的完整生成功能。

为加速推理而进行的优化

  • 量化: Cosmos 3 NIM 支持选择 BF16、FP8 或 NVFP4 量化检查点。NVFP4 量化可将模型的数值精度从 BF16 降低到 4 位浮点,从而实现高达 2 倍的推理加速。
  • vLLM: 是一个开源推理引擎,使用连续批处理、分页注意力和张量并行等技术来高效地服务 LLM。Cosmos 3 Reasoner NIM 服务堆栈基于 vLLM 构建,与传统服务方法相比,吞吐量更高。Cosmos 3 Nano 已准备好与 vLLM-omni 和 NVIDIA Dynamo 一起运行,以实现出色性能。
  • 高效视频采样 (EVS) :该技术可减少推理过程中馈送至 VLM 的视频词元数量,从而加速 Cosmos Reason NIM。EVS 在数据块级别工作,保留每帧中最独特的数据块,并修剪其余数据块。较小的 GPU 往往会更多地受益于这种技术。

如何运行 NIM 

获取容器并从 NGC 下载 Cosmos 3 模型需要使用 NVIDIA NGC API 密钥。

获取并运行 Cosmos 3 Nano Reasoner NIM。对于 Cosmos 3 Super Reasoner NIM,请指定 NIM_MODEL_SIZE=super

docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest

有关 API 使用情况的详细信息,请参阅文档

视频 2. 介绍如何使用 Cosmos Reasoner NIM 的教程视频

开始使用

致谢

Cosmos 3 是 NVIDIA 许多团队和人员 (包括 Aditi, Niket Agarwal, Arslan Ali, Jon Allen, Martin Antolini, Adeline Aubame, Alisson Azzolini, Junjie Bai, Maciej Bala, Yogesh Balaji, Josh Bapst, Aarti Basant, Mukesh Beladiya, Mohammad Qazim Bhat, Zaid Pervaiz Bhat, Dan Blick, Vanni Brighella, Han Cai, Tiffany Cai, Eric Cameracci, Jiaxin Cao, Yulong Cao, Mark Carlson, Carlos Casanova, Ting-Yun Chang, Yan Chang, Yu-Wei Chao, Prithvijit Chattopadhyay, Roshan Chaudhari, Chieh-Yun Chen, Junyu Chen, Ke Chen, Qizhi Chen, Wenkai Chen, Xiaotong Chen, Yu Chen, An-Chieh Cheng, Click Cheng, Xiu Chia, Jeana Choi, Chaeyeon Chung, Wenyan Cong, Yin Cui, Magdalena Dadela, Nalin Dadhich, Wenliang Dai, Joyjit Daw, Alperen Degirmenci, Rodrigo Vieira Del Monte, Robert Denomme, Sameer Dharur, Marco Di Lucca, Ke Ding, Wenhao Ding, Yifan Ding, Yuzhu Dong, Nicole Drumheller, Yilun Du, Aigul Dzhumamuratova, Aleksandr Efitorov, Hamid Eghbalzadeh, Naomi Eigbe, Imad El Hanafi, Hassan Eslami, Benedikt Falk, Jiaojiao Fan, Jim Fan, Amol Fasale, Sergiy Fefilatyev, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Vikram Fugro, Prashant Gaikwad, TJ Galda, Katelyn Gao, Yihuai Gao, Wenhang Ge, Sreyan Ghosh, Arushi Goel, Vivek Goel, Akash Gokul, Rama Govindaraju, Jinwei Gu, Miguel Guerrero, Elfie Guo, Aryaman Gupta, Siddharth Gururani, Hugo Hadfield, Song Han, Ankur Handa, Zekun Hao, Mohammad Harrim, Ali Hassani, Nathan Hayes-Roth, Yufan He, Chris Helvig, Cyrus Hogg, Madison Huang, Michael Huang, Sophia Huang, Yufan Huang, Jacob Huffman, DeLesley Hutchins, Suneel Indupuru, Boris Ivanovic, Arihant Jain, Joel Jang, Ryan Ji, Yanan Jian, Dongfu Jiang, Jingyi Jin, Atharva Joshi, Nikhilesh Joshi, Pranjali Joshi, Jaehun Jung, Weiwei Kang, Scott Kassekert, Jan Kautz, Ashna Khetan, Julia Kiczka, Slawek Kierat, Gwanghyun Kim, Kuno Kim, Sunny Kim, Kezhi Kong, Xin Kong, Zhifeng Kong, Tomasz Kornuta, Egor Krivov, Hui Kuang, Saurav Kumar, Chia-Wen Kuo, George Kurian, Wojciech Kutak, JF Lafleche, Himangshu Lahkar, Omar Laymoun, Jayjun Lee, Sanggil Lee, Gabriele Leone, Boyi Li, Freya Li, Jiajun Li, Jinfeng Li, Ling Li, Pengcheng Li, Shangru Li, Tingle Li, Xiaolong Li, Xuan Li, Zhaoshuo Li, Zhiqi Li, Hao Liang, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Ming-Yu Liu, Sifei Liu, Zihan Liu, Hai Loc Lu, Xiangyu Lu, Alice Luo, Ruipu Luo, Wenjie Luo, Jiangran Lyu, Martin Ding Ma, Nic Ma, Qianli Ma, Dawid Majchrowski, Louis Marcoux, Miguel Martin, Qing Miao, Ashkan Mirzaei, Shreyas Misra, Kaichun Mo, Durra Mohsin, Hyejin Moon, Pawel Morkisz, Saeid Motiian, Kirill Motkov, Seungjun Nah, Yashraj Narang, Deepak Narayanan, Thabang Ngazimbi, Julian Ouyang, David Page, Yatian Pang, Sehwi Park, Mahesh Patekar, Mostofa Patwary, Marco Pavone, Trung Pham, Wei Ping, Soha Pouya, Shrimai Prabhumoye, Varun Praveen, Delin Qu, Hesam Rabeti, Morteza Ramezanali, Marilyn Reeb, Xuanchi Ren, Kristen Rumley, Wojciech Rymer, Jun Saito, Yeongho Seol, John Shao, Piyush Shekdar, Tianwei Shen, Humphrey Shi, Min Shi, Stella Shi, Kevin Shih, Mohammad Shoeybi, Mateusz Sieniawski, Shuran Song, Alexander Sotelo, Amir Sotoodeh, Sunil Srinivasa, Vignesh Srinivasakumar, Bartosz Stefaniak, Rahul Heinrich Steiger, Shangkun Sun, Jiaxiang Tang, Shitao Tang, Yangyang Tang, Yue Tang, Tolou Tavakkoli, Kayley Ting, Krzysztof Tomala, Wei-Cheng Tseng, Jibin Varghese, Sergei Vasilev, Thomas Volk, Raju Wagwani, Roger Waleffe, Andrew Z. Wang, Boxiang Wang, Haoxiang Wang, Qiao Wang, Shihao Wang, Shijie Wang, Ting-Chun Wang, Yan Wang, Yu Wang, David Wehr, Fangyin Wei, Xinshuo Weng, Jay Zhangjie Wu, Kedi Wu, Hongchi Xia, Summer Xiao, Tianjun Xiao, Kevin Xie, Daguang Xu, Jiashu Xu, Mengyao Xu, Ruqing Xu, Xingqian Xu, Yao Xu, Dinghao Yang, Dong Yang, Hans Yang, Xiaodong Yang, Xuning Yang, Yichu Yang, Yurong You, Zhiding Yu, Hao Yuan, Simon Yuen, Xiaohui Zeng, Pengcuo Zeren, Cindy Zha, Haotian Zhang, Jenny Zhang, Jing Zhang, Liangkai Zhang, Paris Zhang, Shun Zhang, Xuanmeng Zhang, Zhizheng Zhang, Ann Zhao, Yilin Zhao, Yuliya Zhautouskaya, Charles Zhou, Fengzhe Zhou, Shilin Zhu, Yuke Zhu, Dima Zhylko, and Artur Zolkowski.

标签