物理 AI 正在迅速从基础运动控制迈向更复杂的环境理解。传统机器人强化学习(RL)长期依赖本体感知(proprioception),包括关节角度、力矩反馈和内部状态,来训练灵巧的运动技能。
然而,面对真实世界中非结构化、动态环境下的操作需求,机器人如今需要在强化学习策略闭环中直接处理更丰富的多模态感知信息,例如 RGB 图像、深度图(depth map)以及语义分割(Semantic Segmentation)。
这一技术演进带来的一个关键挑战就是计算需求呈指数级增长。要大规模训练基于感知的策略,需要运行数百甚至数千个并行仿真环境,而每个环境都需要独立的相机渲染管线、高维视觉数据处理以及复杂的神经网络计算。
当感知输入成为标置,GPU 渲染和计算负载都会显著激增。渲染与计算之间的协同瓶颈已成为制约感知强化学习效率的核心挑战:我们如何在保持算法收敛效率和训练吞吐量的同时,支撑高保真视觉输入下的大规模并行训练?
本博客分为两部分来介绍如何应对上述挑战:
首先介绍基于 NVIDIA Isaac Lab 多模态机器人学习框架,并结合 NVIDIA 多卡、多节点 GPU 集群能力的感知强化学习扩展方案与最佳实践,从而说明更高的计算密度不仅能够加速训练,还能通过增强环境多样性来促进更优策略的开发。
其次提供一个清晰的上手教程,帮助开发者开始在阿里云人工智能平台 PAI (Platform for AI)上部署这些工作流,从而快速利用云端优化的资源开展大规模的感知强化学习训练。此外,开发者还可以通过 PAI 采用 NVIDIA 其他前沿的物理 AI 解决方案,包括 Newton、Isaac Lab-Arena 和 Cosmos Dataset Search。
NVIDIA Isaac Lab:感知强化学习技术架构
本博客涉及的感知强化学习训练采用了 NVIDIA Isaac Lab,它基于 Omniverse 库构建,为大规模机器人强化学习提供了一套开源、GPU 加速的模块化仿真和训练框架。
对于计算密集型的感知类工作负载,Isaac Lab 通过其 TiledCamera 接口实现的 Tiled Rendering 能力至关重要。TiledCamera 不再为每个环境单独渲染相机视角,而是将所有并行环境中的相机视口拼接到一张单一的 GPU 纹理图中(即一个 “tile”)。这样只需一次渲染调用,就能同时为所有环境生成图像输出,避免逐个环境单独渲染带来的巨大开销。
以本次实验环境 Isaac-Repose-Cube-Shadow-Vision-Direct-v0 为例,每个环境都配置了三类相机输入:RGB 图像、深度图以及语义分割。这些视觉信息共同用于引导 Shadow Hand(24 自由度的五指灵巧手)完成对积木的重定向操作。在 4,096 个并行环境的设置下,TiledCamera 提供的批量并行渲染显著提升了整体训练吞吐量和效率,相比逐环境逐帧渲染具有明显优势。
在分布式训练层面,Isaac Lab 原生集成了 PyTorch Torchrun,支持通过 torch.distributed.run 启动跨 GPU、跨节点的分布式强化学习训练,并可与 rsl_rl、rl_games、skrl 等主流 强化学习库无缝对接。典型流程中,每个 GPU 独立负责一组仿真环境及对应的神经网络前向推理,随后通过分布式通信在多卡之间同步梯度,从而实现高效的规模化数据并行训练。
机器人感知强化学习规模化实践
我们设计了两组系统性实验,从不同维度量化 GPU 规模对感知强化学习训练的影响。
实验一:横向扩展 —— 更多 GPU,更多环境,训练更优策略
每个 GPU 固定运行 512 个并行环境,从 1 卡逐步扩展到单节点 4 卡、单节点 8 卡、双节点 16 卡。总环境数随 GPU 数线性增长(512 → 2048 → 4096 → 8192),迭代次数均固定为 24,000 步。
通过 TensorBoard 可视化训练日志,两个核心指标的变化清晰可见:
- 任务成功率(Episode/consecutive_successes):如图一所示,随着总环境数增加,策略探索的多样性显著提升,任务成功率曲线更快上升,最终收敛值也随之提高。
- 收敛速度(convergence behavior):如图二所示,熵损失和值函数损失在多卡配置下下降更为平稳,波动更小,体现出大批量并行采样对策略梯度估计质量的改善。
这一实验说明,在感知强化学习场景下,扩大 GPU 规模不只是加快同样质量的训练,而是能够训练出更好的策略。这与传统监督学习中”更多数据 = 更好模型”的规律高度一致。



实验二:纵向加速 —— 多 GPU 并行提升训练效率
第二组实验将总环境数固定在 2,048 个,通过增加 GPU 数量并按比例减少每 GPU 环境数,在相同迭代次数下观察总训练时长的变化。
| GPU 数量 | 每 GPU 环境数 | 训练时长 |
| 1 | 2,048 | ~1.4 天 |
| 2 | 1,024 | ~21.0 小时 |
| 4 | 512 | ~12.4 小时 |
表1. 随着 GPU 数量增加、并按比例减少每个 GPU 中的环境数量而得到的训练时间
TensorBoard 中的 Perf/total_fps 指标在多 GPU 配置下显示出显著提升。在未改变其他超参数的情况下,由于训练吞吐量提升,训练时间从单 GPU 的 1.3 天压缩至 4 GPU 的 12.5 小时,这对于需要反复迭代超参数、快速验证新策略的研究人员而言,是一次具有变革意义的效率跃升。

更关键的是,这种提升并未带来精度上的折衷。通过对比 1 GPU、2 GPU、4 GPU 配置的 Train/mean_reward 和 Episode/consecutive_successes 曲线,可以看到在相同迭代步数下,任务成功率几乎完全相同。这表明 Isaac Lab 的分布式训练实现了近乎“无损”的梯度同步,也就是说,新增 GPU 带来的效率提升,并不会以牺牲效果为代价。

以上两个实验共同揭示了 NVIDIA GPU 集群在感知强化学习训练中的双重价值:既能通过扩大环境规模提升策略质量,又能通过增加算力密度缩短实验周期,二者可以根据实际研究需求灵活选择。
在上述实验中,我们以带有视觉任务的 Shadow Hand(24 自由度的五指灵巧手)为例,研究人员可以参考这个任务设置来复现实验结果。
在阿里云 PAI 平台上实践和拓展大规模机器人强化学习
阿里云 PAI 支持快速部署 Isaac Lab 感知强化学习,并提供云端优化的资源。主要能力包括:
- 在 PAI-DSW 中通过 noVNC 实现 Web 原生的 VNC 启动,便于对 Isaac Lab 进行可视化调试。
- 原生支持 PyTorch、Ray 等分布式框架,免去集群搭建、运维成本。
- 提供具备强大 RT Core 渲染能力的计算资源,可灵活适配 Isaac Lab 工作负载。
- 内置 Isaac Lab 2.3.0 镜像,提供基于多 GPU、多节点的感知强化学习最佳实践。
视频1:在 PAI 上使用 Isaac Lab 加速基于感知的 MGMN 强化学习训练流程
教程:在阿里云 PAI 平台上启动分布式 Isaac Lab 强化学习任务
在 PAI‑DLC 中,开发者和研究人员可以使用内置的 PyTorch 任务类型,配合官方 Isaac Lab 镜像和公共 Isaac Asset 数据集,快速启动多 GPU、 多节点的强化学习任务。
- 官方 Isaac Lab 镜像链接。
- 定义训练框架和资源:Isaac Lab 原生支持 torch.distributed.run;本次教程选择 PyTorch。除原生 Isaac Lab 外,阿里云 PAI 也支持 Ray、Cosmos-RL 等框架,以实现高效的分布式强化学习训练。
- 挂载 Isaac Asset 公共数据集:可通过 PAI 的可视化界面或提供的挂载点实现。
- 启动命令行:请参见下方代码。
完成以上配置后,即可开始多节点、多 GPU 的 Isaac Lab 强化学习训练任务。

export EXT_ROOT=/mnt/data/NB11
cd ${EXT_ROOT}/code/Pai-PhysxTrainTools
export NUCLEUS_ASSET_ROOT_DIR=/mnt/isaac_asset/5.1
# 软连接共享外部缓存
ln -s ${EXT_ROOT}/code/isaac/root/cache/ov /root/.cache/ov
ln -s ${EXT_ROOT}/code/isaac/root/cache/pip /root/.cache/pip
ln -s ${EXT_ROOT}/code/isaac/root/cache/nvidia/GLCache /root/.cache/nvidia/GLCache
ln -s ${EXT_ROOT}/code/isaac/root/nv/ComputeCache /root/.nv/ComputeCache
ln -s ${EXT_ROOT}/code/isaac/root/nvidia-omniverse/logs /root/.nvidia-omniverse/logs
ln -s ${EXT_ROOT}/code/isaac/root/local/share/ov/data /root/.local/share/ov/data
ln -s ${EXT_ROOT}/code/isaac/root/Documents /root/Documents
# 启动训练脚本
export NPROC_PER_NODE=8
export WORLD_SIZE=2
/workspace/isaaclab/isaaclab.sh -p -m torch.distributed.run \
--nproc_per_node=${NPROC_PER_NODE} \
--nnodes=${WORLD_SIZE} \
--node_rank=${RANK} \
--master_addr=${MASTER_ADDR} \
--master_port=${MASTER_PORT} \
./Examples/IsaacLab230/rsl_rl/train.py --task Isaac-Repose-Cube-Shadow-Vision-Direct-v0 --enable_cameras --headless --max_iterations 24000 --num_envs 512 --distributed
更多前沿物理 AI 方案更新
除了上述使用 Isaac Lab 与多 GPU 集群的规模化感知强化学习实践,NVIDIA 还更新了一系列物理 AI 方案,包括 Newton,Isaac Lab-Arena 和 Cosmos Data Search,并且这些方案都已经集成在阿里云 PAI 平台上。
Newton 物理引擎 + Rerun 轻量化可视化
Newton 由 NVIDIA、Google DeepMind 和 Disney Research 联合开发,是一个开源、GPU 加速的可扩展物理引擎,旨在推动机器人学习与开发。
Newton 基于 NVIDIA Warp 构建,Warp 是一个用于构建和加速仿真及空间计算的开发框架。借助 Newton,机器人可以在安全的虚拟环境中实现并优化其物理智能。
NVIDIA Isaac Lab-Arena:用于仿真任务的大规模机器人策略评估
Isaac Lab-Arena 是一个开源框架,为大规模仿真任务的整理和机器人策略基准测试提供协作式系统,其中评估层和任务层是与光轮智能紧密合作设计的。
Isaac Lab-Arena 可连接 Libero、Robocasa、RoboTwin、RoboFinals 等行业领先的基准,用于统一测试标准,确保机器人技能在部署到实体硬件之前足够稳健可靠。NVIDIA DexBench 和 NVIDIA RoboLab 的基准也即将集成在 Isaac Lab-Arena 推出。
Isaac Lab-Arena 的最新版本通过支持长时程技能链式组合(例如 Pick → Walk → Place)、自然语言场景布局以及异构并行评估,简化了大规模机器人任务创建,从而加速基础模型的基准测试。它还可直接集成到 Isaac Lab 的强化学习和模仿学习(IL, Imitation Learning)训练循环中,将数据生成、训练和评估统一到单一管线。
Isaac Lab-Arena 目前是 alpha 版本,后续版本将重点支持更具智能体特征、以提示词优先的场景与任务生成,增强并行评估中的异构性,以及加入敏感性分析和视觉语言模型(VLM, Vision-Language Model)增强分析,以便从大规模评估中提炼更有价值的洞察。
NVIDIA Cosmos Dataset Search:大规模视频数据集的语义检索
Cosmos Dataset Search 是一个面向物理 AI 应用场景的可扩展视频语义检索平台,它基于经过优化的 NVIDIA NIM Cosmos Embed1 模型构建,支持在文本、视频以及向量到视频等多种模态之间进行高效的跨模态搜索。
该系统采用模块化架构,集成了 FastAPI 服务、GPU 加速的 Milvus 数据库以及基于 React 的用户界面,并支持 Docker 和 Kubernetes 部署,以及独立扩展。
此外,它还通过 Ray 驱动自动化流程,实现 GPU 加速的视频导入和元数据生成。开发者可以通过 Web 界面、REST API 或 CLI 与其交互,因此它广泛适用于 AI 数据筛选、训练数据集准备以及语义去重等工作流。
阿里云 PAI 为开发者提供了快速上手并直接访问以下解决方案的教程:
视频 2:在 PAI 上基于 Newton 可扩展物理引擎和 Rerun 轻量可视化工作流进行 Isaac Lab 强化学习训练
视频 3:在 PAI 上使用 Isaac Lab-Arena 工作流验证 Loco-manipulation 策略
Cosmos Dataset Search 已完整集成到 PAI 的多模态数据集能力中,开发者只需将 NIM Cosmos Embed1 配置为检索模型、并将 Milvus 配置为数据库,即可快速体验其视频检索能力。
视频 4:PAI 上的 Cosmos Dataset Search 工具集
结论
本文深入探讨了具身智能从本体感知向多模态感知演进过程中面临的规模化挑战。通过结合 NVIDIA Isaac Lab 的多节点、多 GPU 分布式训练,我们验证了高扩展性并行训练的有效性。Newton、Isaac Lab-Arena 和 Cosmos Dataset Search 等先进技术栈进一步夯实了物理 AI 解决方案的技术能力。
在此基础上,阿里云 PAI 将 NVIDIA 技术栈无缝整合,提供开箱即用的 PaaS 方案。通过抽象底层基础设施的复杂性,并充分释放云端算力,PAI 赋能终端用户高效加速其物理 AI 的研发与探索。