NVIDIA OSMO

NVIDIA OSMO 是一个开源的 agentic 编排器,用于支持通过提示(prompt)驱动的 physical AI 开发。它将训练集群、仿真环境和边缘环境统一到一个由 YAML 定义的引擎中,在云端或本地基础设施上统一管理数据集、依赖项和算力调度。

OSMO 以 CLI 形式提供,并配合 agent context 文件使用,可将你的 AI 编码代理升级为 physical AI 平台专家,使其对整个开发环境保持全面的情境感知。超越简单的作业提交,你的编码代理能够对整条流水线进行推理、查询正在运行的工作流、检查可用 GPU 资源,并实时监控平台活动。

从提示到运行中的流水线,全流程覆盖合成数据生成、训练以及 SIL 和 HIL 评估,全程无需基础设施方面的专业知识。


工作原理

你可以在一个 YAML 文件中定义整个 physical AI 流水线。OSMO 会处理其余所有工作——在异构 GPU 集群之间进行调度、解析任务依赖关系、管理基于内容寻址的数据集,并在全球范围内编排跨云端和本地基础设施的工作流。

OSMO 以 CLI 形式交付,并为你常用的编码代理提供一个 agent context 文件,使你的编码代理摇身一变成为 physical AI 基础设施专家——能够对流水线进行推理、查询工作流、检查 GPU 容量,并基于实时情境感知采取行动。

NVIDIA OSMO, a cloud-native workflow orchestration platform

    NVIDIA OSMO 的优势

    OSMO 可带来以下优势,从而降低机器人开发的门槛:

    Decorative image of developer-friendly workflow specifications

    端到端编排

    通过一个无代码的 YAML 工作流即可覆盖所有环节——从数据生成到 RL、训练以及仿真验证——并在无需任何 Kubernetes 经验的情况下,在多节点间共享加速集群以运行多阶段任务。

    Decorative image of a location-agnostic deployment

    集中式控制面板

    在支持 x86、Arm 和 NVIDIA GPU 的 Kubernetes 集群上部署并编排多阶段工作负载。这些工作负载既可以在本地环境部署,也可以运行在各大云服务提供商(CSP)上。

    Decorative image of data lineage and asset traceability

    为你的编码智能体注入基础设施能力

    具备平台感知能力的工作流可以对整条流水线进行推理、监控执行过程、检查资源容量,并确保模型部署过程可追踪、可审计。

    Decorative image of secured services

    通过开放标准确保安全

    使用 OIDC 保护您的身份验证、帐户、注册表、存储和机密解决方案。


    更多资源

    探索社区

    获取培训和认证

    了解面向初创公司的计划


    OSMO 最新动态


    常见问题解答

    1. NVIDIA OSMO 的用途是什么?

    OSMO 是专为物理 AI 打造的开源编排器。它允许开发者在异构计算环境中构建、运行和扩展多阶段工作流程,包括数据生成、训练、仿真、评估和硬件在环测试。

    2. OSMO 能否取代模拟器或训练框架?

    不。OSMO 负责编排这些组件,但不会取代它们。它运行 NVIDIA Isaac Sim™、基于 PyTorch 的训练作业和强化学习框架等工具,作为端到端工作流程的一部分。

    3. OSMO 能否将模型部署到生产机器人中?

    不是直接的。OSMO 准备经过训练的策略、数据集和构件,但部署到生产系统不在其范围内。用户可以将 OSMO 输出与其首选的部署运行时或机器人堆栈集成。

    4. OSMO 是 MLOps 平台吗?

    不。OSMO 不包括实验控制面板、构件注册表或工作流即代码接口。其工作重点是物理 AI 开发的工作流执行、数据集版本控制、数据沿袭和计算编排。

    5. OSMO 可以在何处运行?是否仅限于云环境?

    OSMO 不是供应商锁定的。它支持本地集群、云提供商 (例如 AWS、Azure 和 GCP) 、多云环境、NVIDIA Jetson™ 和 ARM 边缘硬件以及混合计算设置。所有这些工作负载均可调度。

    6. 使用 OSMO 是否需要 Kubernetes 或基础架构专业知识?

    不。工作流在简单的 YAML 文件中定义,而 OSMO 则将底层基础设施抽象化。用户无需编写 Kubernetes 清单或管理集群配置,即可大规模运行物理 AI 工作负载。

    7. 我为什么要使用 OSMO 而不是 SLURM?

    SLURM 是一种通用型 HPC 作业调度程序。OSMO 专为物理 AI 和机器人工作流而构建,这些工作流需要 SLURM 无法处理的数据集管理、模拟器集成、异构硬件和多阶段工作流。