新一代 AI 驱动的机器人 人形机器人 以及 智能汽车 取决于高保真、物理感知的训练数据。如果没有多样化且具有代表性的数据集,这些系统就无法获得适当的训练,并且由于泛化性差、对现实世界变化的接触有限以及极端情况下的行为不可预测,这些系统将面临测试风险。收集大量真实数据集进行训练成本高昂、耗时费力,而且往往受限于各种可能性。
NVIDIA Cosmos 通过加速 世界基础模型 (WFM) 的开发来应对这一挑战。Cosmos WFM 是其平台的核心,可加速 合成数据生成,并作为后训练的基础,用于开发下游领域或任务特定的物理 AI 模型以解决这些挑战。本文将探讨最新的 Cosmos WFM、推动 物理 AI 进步的关键能力,以及如何使用它们。
Cosmos 基础世界模型更新:
NVIDIA Cosmos 世界基础模型持续快速发展,其显著进步进一步加速了合成数据生成和物理 AI 开发。推出一年后,关键更新包括:
- Cosmos Transfer 2.5 – 通过仿真和 3D 空间输入实现更快、更可扩展的数据增强,实现环境、照明条件和场景变化的更大多样性。
- Cosmos Predict 2.5—针对长达 30 秒的序列生成增强型长尾场景,在使用专有或领域特定数据进行后训练时,可将准确度提高 10 倍。支持多视图输出、自定义摄像头布局和备用策略输出,例如动作模拟。
- Cosmos Reason 2—先进的物理 AI 推理,具有更好的时空理解和时间精度。添加具有 2D/ 3D 点定位和边界框坐标的物体检测,以及推理解释和标签。扩展了长上下文支持,输入 tokens 高达 256K。
Cosmos Transfer,用于基于物理学的逼真视频
Cosmos Transfer 根据结构输入生成高保真世界场景,确保精确的空间对齐和场景构成。
Cosmos Transfer 采用 ControlNet 架构,可保留预训练知识,从而实现结构化、一致的输出。它利用时空控制图来动态对齐合成和现实世界的表示,实现对场景构图、对象放置和运动动力学的精细控制。
输入:
- 结构化视觉或几何数据:分割图、深度图、边缘图、人类运动关键点、激光雷达扫描、轨迹、高清地图和 3D 边界框。
- 真值标注:用于精确对齐的高保真参考。
输出:具有受控布局、物体放置和运动的逼真视频序列。

图 1. 左侧是在 NVIDIA Omniverse 中创建的虚拟模拟或“真值”。右侧是使用 Cosmos Transfer 进行的逼真转换
主要功能:
- 生成符合现实世界物理特性的可扩展、逼真的合成数据。
- 通过结构化多模态输入控制对象交互和场景构成。
使用 Cosmos Transfer 获取可控的合成数据
借助生成式 AI API 和 SDK,NVIDIA Omniverse 加速物理 AI 仿真。开发者使用基于 OpenUSD 的 NVIDIA Omniverse 创建能够准确模拟真实世界环境的 3D 场景,用于 训练和测试 机器人和智能汽车。这些模拟可作为 Cosmos Transfer 的真值视频输入,并与注释和文本指令相结合。Cosmos Transfer 可增强逼真度,同时改变环境、照明和视觉条件,以生成可扩展的、多样化的世界状态。
此工作流程加速高质量训练数据集的创建,确保 AI 智能体能够从仿真有效推广到现实世界的部署。

Cosmos Transfer 通过在虚拟世界中实现逼真的照明、颜色和纹理来增强机器人开发,用于合成操作运动生成的 Isaac GR00T Blueprint 以及适用于智能汽车模拟的 Omniverse Blueprint,以应对不同环境和天气条件的训练需求。这种逼真的数据对于后训练策略模型至关重要,可确保从仿真到现实的流畅迁移,并支持感知 AI 和专用机器人模型(如 GR00T N1)的模型训练。
如何运行新的 Cosmos Transfer 2.5:
- 要在新的 Cosmos Transfer 2.5 上运行推理,请按照 推理指南。
- 要使用专有数据或域数据进行后训练,请遵循 后训练指南。
- 探索 NVIDIA Cosmos Cookbook,获取来自 Cosmos 用户的分步工作流程和技术方案。
Cosmos 预测生成未来世界状态
Cosmos Predict WFM 旨在将未来世界状态建模为来自多模态输入 (包括文本、视频和开始端帧序列) 的视频。它使用基于 Transformer 的架构构建,可增强时间一致性和帧插值。
主要功能:
- 直接根据文本提示生成逼真的世界状态。
- 通过预测缺失帧或扩展运动,根据视频序列预测后续状态。
- 在起始图像和结束图像之间生成多帧,创建完整、流畅的序列。
Cosmos Predict WFM 为在机器人和智能汽车领域训练下游世界模型奠定了坚实的基础。您可以 后训练 这些模型可生成用于策略建模的动作而非视频,或对其进行调整以实现视觉语言理解,从而创建自定义感知 AI 模型。
如何运行新的 Cosmos Predict 2.5:
- 要在新的 Cosmos Predict 2.5 上运行推理,请按照 推理指南。
- 要使用专有数据或域数据进行后训练,请遵循 后训练指南。
- 探索 NVIDIA Cosmos Cookbook,获取 Cosmos 用户提供的分步工作流程和技术方案。
Cosmos 智能感知、推理和响应的推理能力
Cosmos Reason 是一个完全可定制的多模态 AI 推理模型,专为理解运动、物体交互和时空关系而构建。使用 思维链 (CoT) 推理,该模型解释视觉输入,根据给定的提示预测结果,并奖励最佳决策。与基于文本的 LLM 不同,它为现实世界的物理推理奠定了基础,以自然语言生成清晰、上下文感知的响应。
输入:视频观察和基于文本的查询或指令。
输出:通过长视距思维链推理生成的文本响应。
主要功能:
- 了解物体如何随时间移动、交互和变化。
- 根据输入观察结果预测并奖励下一个最佳行动。
- 不断完善决策制定。
- 专为后训练而构建,用于构建感知 AI 和 embodied AI 模型。
训练管线
Cosmos Reason 经过三个阶段的训练,增强了其在现实世界场景中进行推理、预测和响应决策的能力。
- 预训练:使用视觉 Transformer (ViT) 将视频帧处理为结构化嵌入,并将其与文本对齐,以共享对物体、动作和空间关系的理解。
- 监督式微调 (SFT):使模型在两个关键级别上专门进行物理推理。常规微调可使用不同的视频文本数据集增强语言基础和多模态感知,而对物理 AI 数据进行更多的训练可提高模型推理现实世界交互的能力。它学习物体行为,例如如何在现实世界中使用物体、动作序列、确定多步骤任务如何展开,以及空间可行性,以区分现实和不可能的放置。

强化学习 (RL):该模型会评估不同的推理路径,并仅在通过试验和奖励反馈做出更好的决策时自我更新。它使用基于规则的奖励,而不是依赖人工标记的数据:
- 实体识别:奖励准确识别物体及其属性。
- 空间限制:惩罚物理上不可能的放置位置,同时强化逼真的物体定位。
- 时间推理: 鼓励根据因果关系进行正确的序列预测。
如何运行全新 Cosmos Reason 2:
- 要在新的 Cosmos Reason 2 上运行推理,请按照推理指南。
- 要使用专有数据或域数据进行后训练,请遵循后训练指南。
- 探索 NVIDIA Cosmos Cookbook Cosmos 用户的分步工作流程和技术方案。
开始使用
- 请访问我们的Cosmos Cookbook用于构建、调整和部署 Cosmos WFM 的分步工作流程、技术方案和具体示例。
- 探索全新开放的 Cosmos 模型和数据集Hugging Face 以及 GitHub 或在 NVIDIA 官网试用模型。
- 成为社区的一员,加入我们 Cosmos Discord 频道 。
- 已经在使用 Cosmos?详细了解如何贡献。
- 观看 NVIDIA 创始人兼首席执行官黄仁勋的 GTC 主题演讲,并 探索 Cosmos 会议。
更新日期为 2026 年 3 月 13 日,包含对 NVIDIA Cosmos 世界基础模型的改进。