借助 NVIDIA Cosmos 世界基础模型扩展合成数据和物理 AI 推理

新一代 AI 驱动的机器人人形机器人以及智能汽车取决于高保真、物理感知的训练数据。如果没有多样化且具有代表性的数据集，这些系统就无法获得适当的训练，并且由于泛化性差、对现实世界变化的接触有限以及极端情况下的行为不可预测，这些系统将面临测试风险。收集大量真实数据集进行训练成本高昂、耗时费力，而且往往受限于各种可能性。

NVIDIA Cosmos 通过加速世界基础模型 (WFM) 的开发来应对这一挑战。Cosmos WFM 是其平台的核心，可加速合成数据生成，并作为后训练的基础，用于开发下游领域或任务特定的物理 AI 模型以解决这些挑战。本文将探讨最新的 Cosmos WFM、推动物理 AI 进步的关键能力，以及如何使用它们。

Cosmos 基础世界模型更新：

NVIDIA Cosmos 世界基础模型持续快速发展，其显著进步进一步加速了合成数据生成和物理 AI 开发。推出一年后，关键更新包括：

Cosmos Transfer 2.5 – 通过仿真和 3D 空间输入实现更快、更可扩展的数据增强，实现环境、照明条件和场景变化的更大多样性。
Cosmos Predict 2.5—针对长达 30 秒的序列生成增强型长尾场景，在使用专有或领域特定数据进行后训练时，可将准确度提高 10 倍。支持多视图输出、自定义摄像头布局和备用策略输出，例如动作模拟。
Cosmos Reason 2—先进的物理 AI 推理，具有更好的时空理解和时间精度。添加具有 2D/ 3D 点定位和边界框坐标的物体检测，以及推理解释和标签。扩展了长上下文支持，输入 tokens 高达 256K。

Cosmos Transfer，用于基于物理学的逼真视频

Cosmos Transfer 根据结构输入生成高保真世界场景，确保精确的空间对齐和场景构成。

Cosmos Transfer 采用 ControlNet 架构，可保留预训练知识，从而实现结构化、一致的输出。它利用时空控制图来动态对齐合成和现实世界的表示，实现对场景构图、对象放置和运动动力学的精细控制。

输入：

结构化视觉或几何数据：分割图、深度图、边缘图、人类运动关键点、激光雷达扫描、轨迹、高清地图和 3D 边界框。
真值标注：用于精确对齐的高保真参考。

输出：具有受控布局、物体放置和运动的逼真视频序列。

图 1. 左侧是在 NVIDIA Omniverse 中创建的虚拟模拟或“真值”。右侧是使用 Cosmos Transfer 进行的逼真转换

主要功能：

生成符合现实世界物理特性的可扩展、逼真的合成数据。
通过结构化多模态输入控制对象交互和场景构成。

使用 Cosmos Transfer 获取可控的合成数据

借助生成式 AI API 和 SDK，NVIDIA Omniverse 加速物理 AI 仿真。开发者使用基于 OpenUSD 的 NVIDIA Omniverse 创建能够准确模拟真实世界环境的 3D 场景，用于训练和测试机器人和智能汽车。这些模拟可作为 Cosmos Transfer 的真值视频输入，并与注释和文本指令相结合。Cosmos Transfer 可增强逼真度，同时改变环境、照明和视觉条件，以生成可扩展的、多样化的世界状态。

此工作流程加速高质量训练数据集的创建，确保 AI 智能体能够从仿真有效推广到现实世界的部署。

Cosmos Transfer 通过在虚拟世界中实现逼真的照明、颜色和纹理来增强机器人开发，用于合成操作运动生成的 Isaac GR00T Blueprint 以及适用于智能汽车模拟的 Omniverse Blueprint，以应对不同环境和天气条件的训练需求。这种逼真的数据对于后训练策略模型至关重要，可确保从仿真到现实的流畅迁移，并支持感知 AI 和专用机器人模型（如 GR00T N1）的模型训练。

如何运行新的 Cosmos Transfer 2.5：

要在新的 Cosmos Transfer 2.5 上运行推理，请按照推理指南。
要使用专有数据或域数据进行后训练，请遵循后训练指南。
探索 NVIDIA Cosmos Cookbook，获取来自 Cosmos 用户的分步工作流程和技术方案。

Cosmos 预测生成未来世界状态

Cosmos Predict WFM 旨在将未来世界状态建模为来自多模态输入 (包括文本、视频和开始端帧序列) 的视频。它使用基于 Transformer 的架构构建，可增强时间一致性和帧插值。

主要功能：

直接根据文本提示生成逼真的世界状态。
通过预测缺失帧或扩展运动，根据视频序列预测后续状态。
在起始图像和结束图像之间生成多帧，创建完整、流畅的序列。

Cosmos Predict WFM 为在机器人和智能汽车领域训练下游世界模型奠定了坚实的基础。您可以后训练这些模型可生成用于策略建模的动作而非视频，或对其进行调整以实现视觉语言理解，从而创建自定义感知 AI 模型。

如何运行新的 Cosmos Predict 2.5：

要在新的 Cosmos Predict 2.5 上运行推理，请按照推理指南。
要使用专有数据或域数据进行后训练，请遵循后训练指南。
探索 NVIDIA Cosmos Cookbook，获取 Cosmos 用户提供的分步工作流程和技术方案。

Cosmos 智能感知、推理和响应的推理能力

Cosmos Reason 是一个完全可定制的多模态 AI 推理模型，专为理解运动、物体交互和时空关系而构建。使用思维链 (CoT) 推理，该模型解释视觉输入，根据给定的提示预测结果，并奖励最佳决策。与基于文本的 LLM 不同，它为现实世界的物理推理奠定了基础，以自然语言生成清晰、上下文感知的响应。

输入：视频观察和基于文本的查询或指令。
输出：通过长视距思维链推理生成的文本响应。

主要功能：

了解物体如何随时间移动、交互和变化。
根据输入观察结果预测并奖励下一个最佳行动。
不断完善决策制定。
专为后训练而构建，用于构建感知 AI 和 embodied AI 模型。

训练管线

Cosmos Reason 经过三个阶段的训练，增强了其在现实世界场景中进行推理、预测和响应决策的能力。

预训练：使用视觉 Transformer (ViT) 将视频帧处理为结构化嵌入，并将其与文本对齐，以共享对物体、动作和空间关系的理解。
监督式微调 (SFT)：使模型在两个关键级别上专门进行物理推理。常规微调可使用不同的视频文本数据集增强语言基础和多模态感知，而对物理 AI 数据进行更多的训练可提高模型推理现实世界交互的能力。它学习物体行为，例如如何在现实世界中使用物体、动作序列、确定多步骤任务如何展开，以及空间可行性，以区分现实和不可能的放置。

强化学习 (RL)：该模型会评估不同的推理路径，并仅在通过试验和奖励反馈做出更好的决策时自我更新。它使用基于规则的奖励，而不是依赖人工标记的数据：

实体识别：奖励准确识别物体及其属性。
空间限制：惩罚物理上不可能的放置位置，同时强化逼真的物体定位。
时间推理： 鼓励根据因果关系进行正确的序列预测。

如何运行全新 Cosmos Reason 2：

要在新的 Cosmos Reason 2 上运行推理，请按照推理指南。
要使用专有数据或域数据进行后训练，请遵循后训练指南。
探索 NVIDIA Cosmos Cookbook Cosmos 用户的分步工作流程和技术方案。

开始使用

请访问我们的Cosmos Cookbook用于构建、调整和部署 Cosmos WFM 的分步工作流程、技术方案和具体示例。
探索全新开放的 Cosmos 模型和数据集Hugging Face 以及 GitHub 或在 NVIDIA 官网试用模型。
成为社区的一员，加入我们 Cosmos Discord 频道 。
已经在使用 Cosmos？详细了解如何贡献。
观看 NVIDIA 创始人兼首席执行官黄仁勋的 GTC 主题演讲，并探索 Cosmos 会议。

更新日期为 2026 年 3 月 13 日，包含对 NVIDIA Cosmos 世界基础模型的改进。

借助 NVIDIA Cosmos 世界基础模型扩展合成数据和物理 AI 推理

Cosmos 基础世界模型更新：

Cosmos Transfer，用于基于物理学的逼真视频

使用 Cosmos Transfer 获取可控的合成数据

如何运行新的 Cosmos Transfer 2.5：

Cosmos 预测生成未来世界状态

如何运行新的 Cosmos Predict 2.5：

Cosmos 智能感知、推理和响应的推理能力

如何运行全新 Cosmos Reason 2：

开始使用

标签

关于作者

相关文章

使用 NVIDIA Warp 为 AI 构建加速的可微分计算物理代码

CUDA 13.2 引入增强的 CUDA Tile 支持和新的 Python 功能

控制 NVIDIA CCCL 中的浮点确定性

cuTile.jl 为 Julia 带来基于 NVIDIA CUDA Tile 的编程

开发者可用 5 款全新数字孪生产品构建 6G 网络