面向开发者的 NVIDIA Cosmos
NVIDIA Cosmos™ 是一个面向自动驾驶汽车 (AV) 和机器人开发者,整合了前沿的生成世界基础模型 (WFM)、高级分词器、护栏以及加速数据处理和管理管道的平台。
更快地构建、评估、部署和模拟物理 AI 模型,同时更大限度地降低现实世界中的测试和验证风险。
工作原理

Cosmos WFM 可加速物理 AI 开发,帮助开发者增强数据集,并对机器人和自动驾驶汽车的下游世界模型进行后训练。
Cosmos 预测根据输入生成下一帧,以构建预测各种边缘情况的数据集,并作为所有世界模型的基础。
Cosmos 推理充当评论家,使用思维链推理来评估合成视觉效果并奖励结果。它还可以生成描述,以加速数据管护。
Cosmos Transfer在各种环境和照明条件下放大结构化视频。
开发者可以使用可用的 PyTorch 推理和后训练脚本以及模型检查点。Cosmos NIM 微服务正在开发中 – Cosmos Predict NIM 微服务现已推出此处。
NVIDIA Cosmos 基础世界模型
用于生成世界的预训练模型系列,可用作加速物理 AI 开发的视频。在 NGC、Hugging Face 和 GitHub 上向开发者公开提供。
Cosmos Predict
用于开箱即用的世界生成和后训练。
一种通用模型,可根据文本或视频提示生成世界状态,并通过预测给定开始帧和结束帧之间的帧来合成连续运动。
这些模型的参数范围从 40 亿到 150 亿不等,可根据推理要求使用。
Cosmos Transfer
适用于大规模可控且逼真的合成数据。
输入:来自 NVIDIA Omniverse 的分割图、深度信号、激光雷达扫描、关键点、轨迹、高清地图和真值模拟。
输出:逼真的世界场景,基于输入、镜像布局、物体放置和运动进行调整。
Cosmos Reason
用于物理 AI 推理。
使用视觉语言微调和强化学习训练的完全可定制的多模态推理模型,该模型使用一系列思维来规划响应。
该模型通过推理和奖励最佳响应来实现智能决策。
Cosmos WFM 后训练示例
经过后训练的 Cosmos Predict WFM 可为自动驾驶汽车生成预测性世界状态,根据真实输入创建单视图或多视图视频,从而在自动驾驶汽车训练中提高 360 ° 环境意识。
预测样本
Cosmos 护栏
一系列护栏,包括用于阻挡有害输入的预防护装置和用于确保几代产品安全性和一致性的后防护装置。
Cosmos Tokenizer
一套图像和视频标记器,可推进世界模型训练的先进视觉标记。
入门资源
入门套件
通过使用 Cosmos 开发自定义世界模型或将 Cosmos WFM 用于下游用例,开始解决物理 AI 挑战。探索物理 AI 开发各个阶段的实现脚本、讲解博客和更多操作方法文档。
后训练 Cosmos WFM
Cosmos WFM 专为后训练而构建。使用特定领域的数据集构建世界模型,或对不同类型的输出进行后训练,例如为策略模型生成动作。
合成数据生成
为无限个特定领域的合成数据构建和部署世界模型。使用 NVIDIA Omniverse 进行基于物理性质的调节。
Cosmos 学习资源库
更多资源
AI 伦理注意事项
NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持各种 AI 应用的开发。根据我们的服务条款下载或使用时,开发者应与其内部模型团队合作,确保此模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。
NVIDIA 与 Google Deepmind 合作,对 NVIDIA API Catalog 中生成的视频进行了水印。
如需详细了解此模型的伦理道德考虑因素,请参阅系统卡模型卡 可解释性、偏差、安全性和隐私子卡。请在此处报告安全漏洞或 NVIDIA AI 问题。
立即开始使用 NVIDIA Cosmos