面向开发者的 NVIDIA Cosmos

NVIDIA Cosmos™ 是一个面向智能汽车 (AV) 和机器人开发者，整合了前沿的生成世界基础模型 (WFM)、高级分词器、护栏以及加速数据处理和管理管道的平台。

更快地构建、评估、部署和模拟物理 AI 模型，同时更大限度地降低现实世界中的测试和验证风险。

探索模型文档

NVIDIA Cosmos 世界基础模型

一系列用于世界生成的预训练模型，作为加速物理 AI 开发的视频。在 NGC、Hugging Face 和 GitHub 上向开发者公开提供。

Cosmos Predict

用于未来世界状态生成，或作为自定义世界模型的基础。

输入：文本或图片

输出：视频

List item

前往 GitHub 立即体验

可在 Hugging Face 尝试模型 checkpoint

Cosmos Transfer

用于大规模可控的逼真合成数据。

输入：来自 NVIDIA Omniverse™ 的草图、深度信号、激光雷达扫描、关键点、轨迹、高清地图和真值模拟。

输出：逼真的世界场景，根据输入、镜像布局、物体放置和运动进行调整。

立即体验请前往 GitHub

模型 checkpoint 可在 Hugging Face 试用

Cosmos Reason

用于合成数据整理、机器人决策以及 AI 智能体运行时视频分析的世界推理。

输入：视频

输出：链式推理和文本

GitHub 快速开始

试用模型检查点（Hugging Face）

入门资源

Cosmos Cookbook：物理 AI 模型实用指南

Cosmos Cookbook 是一份开源指南，包含分步工作流程和示例，用于在现实世界应用中部署和定制 NVIDIA Cosmos 世界基础模型。

Cosmos Predict 2.5 和 Transfer 2.5 的更新版本

Cosmos Predict 2.5 和 Transfer 2.5 通过统一多模态世界生成和改进空间控制世界转换，推动可扩展的高效物理 AI，推进 NVIDIA 世界基础模型的发展。

阅读 Hugging Face 博客

基于视频基础模型的世界仿真

NVIDIA Cosmos 白皮书介绍了一个开放平台，包含世界基础模型、视频筛选工具和分词器，旨在帮助开发者高效地定制、生成和模拟基于物理学的数据，从而推动机器人和自动驾驶等物理 AI 应用的发展。

阅读白皮书

入门套件

通过使用 Cosmos 开发自定义世界模型或将 Cosmos WFM 用于下游用例，开始解决物理 AI 挑战。探索物理 AI 开发各个阶段的实现脚本、解说员博客和更多操作方法文档。

后训练 Cosmos WFM

Cosmos WFM 专为后训练而设计。使用特定于领域的数据集构建世界模型，或针对不同类型的输出 (例如策略模型的动作生成) 进行后训练。

合成数据生成

为无限个特定领域的合成数据构建和部署世界模型。使用 NVIDIA Omniverse 进行基于物理的调节。

视觉语言模型

视觉语言模型 (VLM) 是能够理解和处理视频、图像和文本的多模态生成式 AI 模型。

使用 Cosmos Reason 构建视频分析 AI 智能体

使用 NVIDIA Cosmos 推理和 NVIDIA Blueprint 构建视频分析 AI 智能体，实现视频搜索和摘要 (VSS) 。

Cosmos 学习资源库

更多资源

GitHub 论坛

阅读 Cosmos 常见问题解答

注册以获取
开发者时事通讯

道德考量

NVIDIA 认为值得信赖的 AI 是一项共同的责任，我们制定了相关政策和实践来支持各种 AI 应用的开发。根据我们的服务条款下载或使用此模型时，开发者应与其内部模型团队合作，确保此模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。

NVIDIA 与 Google Deepmind 合作，对 NVIDIA API Catalog 中生成的视频进行了水印。

有关此模型道德考虑因素的更多详细信息，请参阅系统卡、模型卡可解释性、偏差、安全性和隐私子卡。请报告安全漏洞或 NVIDIA AI 问题。

立即开始使用 NVIDIA Cosmos