代理式 AI/生成式 AI

基于 NVIDIA Alpamayo 构建具备推理能力的辅助驾驶汽车

辅助驾驶研究领域正经历一场快速变革。视觉-语言-动作推理模型(Reasoning VLA) 的出现正重塑该领域,这些模型为辅助驾驶决策赋予了类人的思维能力。这类模型可视为在语义空间中运行的隐式世界模型,使辅助驾驶能够逐步解决复杂问题,并生成反映人类思维过程的推理轨迹。这种变革不仅体现在模型本身:传统的开环评估已不足以严谨地检验此类模型,因此需要开发新的评估工具。

近期,NVIDIA 推出了 Alpamayo 系列,该系列包含模型、仿真工具及数据集,旨在推动安全可靠的推理型辅助驾驶汽车开发。我们的目标是为研究人员和开发者提供一个灵活、快速且可扩展的平台,用于在真实的闭环环境中评估并最终训练新一代基于推理的辅助驾驶架构。

在这篇博客中,我们将介绍 Alpamayo 以及如何快速启动基于推理的辅助驾驶开发:

  • 第一部分:NVIDIA Alpamayo 1——具备 100 亿参数的开源 VLA 推理模型,以及如何利用该模型生成轨迹预测结果并查看对应的推理路径。
  • 第二部分:物理 AI 数据集——当前规模大、地域分布广的辅助驾驶开源数据集,可用于训练和评估此类模型。
  • 第三部分:NVIDIA AlpaSim——专为评估端到端模型设计的开源端到端仿真框架。

这三个关键组件为构建 VLA 推理模型提供了必要的基础要素:基础模型、用于训练的大规模数据集,以及用于测试和评估的仿真器。

视频 1. Alpamayo 1 模型基于 NVIDIA 物理 AI 平台(辅助驾驶 NuRec 数据集)重建的场景,在 AlpaSim 仿真环境中实现了闭环。

第一部分:Alpamayo 1——面向辅助驾驶的开源 VLA 推理模型

只需三步,即可开始使用 Alpamayo VLA 推理模型。

步骤 1:获取 Alpamayo 模型权重和代码

Hugging Face 仓库包含预训练的模型权重,可通过 GitHub 上的对应代码加载。

步骤 2:环境准备

Alpamayo GitHub 仓库包含设置开发环境的步骤,包括安装 uv(如果尚未安装)以及创建 Python 虚拟环境。

# Install uv
curl -LsSf https://astral.sh/uv/install.sh | sh
export PATH="$HOME/.local/bin:$PATH"
 
# Setup the virtual environment
uv venv ar1_venv
source ar1_venv/bin/activate
 
# Install pip in the virtual environment (if missing)
./ar1_venv/bin/python -m ensurepip
 
# Install Jupyter notebook package
./ar1_venv/bin/python -m pip install notebook
 
uv sync --active

最后,由于该模型需要访问 Hugging Face 的部分受限资源,请在此处申请访问权限:

●        PhysicalAI-AV Dataset

●        Alpamayo-R1-10B Model Weights

●        物理 AI – 辅助驾驶数据集

●        Alpamayo-R1-10B 模型权重

然后,使用以下方式进行身份验证:

hf auth login

在此获取 Hugging Face token。

步骤 3:运行 Alpamayo VLA 推理模型

模型仓库包含一个notebook文件,用于下载 Alpamayo 模型的权重参数,加载 NVIDIA 物理 AI 辅助驾驶数据集示例数据,运行模型,最后可视化输出轨迹及其关联的推理路径。

具体而言,示例数据包含自车驶过施工区域的场景,下图展示了来自四个摄像头(分别位于前排左侧、前排广角、前排右侧、前排远摄位置,对应下图各行)的四个时间步(列)。

图 1. 示例数据样本的可视化展示,其中包含施工区域,该数据将被输入模型。具体展示了来自 4 个摄像头(前左、前广角、前右、前远摄)的 4个时间步(列)。

在 Alpamayo 模型运行后,notebook 中可能出现的示例输出为:“向左微调方向,避开侵占车道的施工路锥,扩大通行间距”,对应的预测轨迹与实际轨迹如下图所示。

图 2. 模型输出轨迹(蓝色)与实际轨迹(红色)的可视化对比图。

若需生成更多轨迹和推理路径,请将推理调用中的 num_traj_samples=1 参数修改为更大的数值。

第二部分:面向大规模多样化辅助驾驶数据的物理 AI 数据集

物理 AI 辅助驾驶数据集是目前规模较大、地域分布广的多传感器数据集,助力辅助驾驶研究人员构建新一代基于物理 AI 的端到端驾驶系统。

图 3. 物理 AI 辅助驾驶数据集片段,该数据集是规模较大、地域分布广的多传感器辅助驾驶数据集。

该数据集包含了 25 个国家、超过 2,500 座城市共计 1,727 小时的驾驶视频数据(覆盖范围如下图所示,颜色深浅代表各国收录的片段数量)。数据采集范围涵盖多样化的交通状况、天气条件、道路障碍物及行人活动。整体数据集由 310,895 段独立视频片段构成,每段时长均为 20 秒。所有片段均包含多摄像头与激光雷达的传感器数据,其中 163,850 个片段还同步收录了毫米波雷达数据。

图 4. 物理 AI 辅助驾驶数据集的地理覆盖范围。该数据集总计收录了 25 个国家、超过 2,500 座城市共计 1727 小时的驾驶视频数据(颜色深浅表示各国收录的片段数量)。

如需使用以上物理 AI 辅助驾驶数据集,请访问 physical_ai_av GitHub 代码仓库,其提供了 Python 开发工具包及文档(以知识库形式呈现)。事实上,本系列第一部分中用于加载 Alpamayo 1 示例数据的工具,正是基于此资源包实现。

第三部分:AlpaSim——面向辅助驾驶评估的闭环仿真框架

AlpaSim 概述

图 5. 围绕核心运行时的 AlpaSim 微服务架构高层概览。各服务运行在独立进程中,以实现灵活的扩展性和模块化设计。

AlpaSim 基于微服务架构构建,其核心是运行时(见图 5),该组件负责协调所有仿真活动。各独立服务如驱动程序、渲染器、交通仿真器、控制器和物理引擎均在独立进程中运行,且可分配至不同 GPU。此设计具备两大优势:

  • 基于 gRPC 提供清晰的模块化 API,能够轻松集成新服务且有效避免依赖冲突。
  • 支持任意水平扩展,使研究人员能将计算资源分配到最关键的环节。例如:若驱动程序推理成为瓶颈,只需启动更多驱动进程;若渲染成为瓶颈,则为渲染分配更多  GPU。当渲染进程无法同时处理多个场景时,可在同一 GPU 上运行多个渲染器实例以最大化资源利用率。

但横向扩展并非全部,AlpaSim 的真正优势在于运行时如何实现流水线并行(见图 6)。

在传统的顺序执行中,各组件必须相互等待。例如,驱动程序在每次推理步骤后必须暂停,直至渲染器生成下一个感知输入。AlpaSim 消除了这一瓶颈:当一个场景正在渲染时,驱动程序可同时为另一个场景运行推理。这种重叠处理显著提升了 GPU 利用率和吞吐量。在进一步扩展时,驱动程序推理可跨多个场景进行批量处理,而多个渲染进程则并行生成感知输入。

图 6. AlpaSim 通过实现流水线并行执行,以优化 GPU 利用率并提高吞吐量。

共享生态系统

目前已为所有核心服务提供初始实现方案,包括通过 NVIDIA Omniverse NuRec 3DGUT 算法进行渲染、参考控制器以及驱动程序基准。 Alpamayo 1 和 CAT-K 等更多驱动程序模型将于未来几周内上线。

该平台还预装了约 900 个重建场景(每个场景时长 20 秒)以及物理 AI 辅助驾驶数据集,使研究人员能够在真实的闭环场景中即时评估端到端模型。此外,AlpaSim 具备高度可配置性,支持从摄像头参数、渲染频率到人工延迟等众多仿真设置。

除了内置组件外, AlpaSim 将发展为更广泛的协作生态系统。未来,实验室将能够无缝接入自研的驾驶、渲染或交通模型,并基于共享基准测试平台直接对比不同方案。

AlpaSim 实际应用

AlpaSim 已为多项内部研究工作提供支持。

首先,我们近期提出的 Sim2Val 框架,证明了 AlpaSim 的推演结果足够真实,能够显著提升实车验证的有效性。通过将仿真轨迹整合至评估流程,关键现实世界指标的方差降低了高达 83%,使模型评估更快速、更可靠。

其次,我们借助 AlpaSim 对 Alpamayo 1 模型进行闭环评估。通过回放重建场景并让策略驱动端到端驾驶,我们可计算出反映真实交通条件下性能的驾驶评分(DrivingScore)。

除评估功能外,我们正结合同期发布的 RoaD 算法,将 AlpaSim 应用于闭环训练。该算法能有效缓解开环训练与闭环部署间的协变量偏移问题,同时数据效率显著优于传统强化学习。

图 7. 真实驾驶(x 轴)与重模拟驾驶(y 轴)之间的指标相关性。我们测量了与附近物体的最近距离(左)以及车辆偏离车道中心的距离(右)。

Alpasim 入门指南

只需三个步骤,即可开始使用 AlpaSim 进行模型评估。

步骤 1:访问 AlpaSim

开源仓库包含所需软件,场景重建文件可从 NVIDIA 物理 AI 开放数据集获取。

步骤 2:环境准备

首先,请确保遵循 ONBOARDING.md 中的入门步骤。

然后,使用以下命令执行初始设置/安装:

source setup_local_env.sh

此操作将编译原语文件,下载示例驾驶模型,从 Hugging Face下载示例场景,并安装 alpasim_wizard 命令行工具。

步骤3:运行模拟

使用向导来构建、运行和评估模拟部署:

alpasim_wizard +deploy=local wizard.log_dir=$PWD/tutorial

仿真日志、输出文件位于已创建的 tutorial 目录下。如需查看可视化呈现结果,系统会在 tutorial/eval/videos/clipgt-05bb8212…_0.mp4 路径下生成一个 mp4 文件,其内容将与以下示例类似:

图 8. AlpaSim 输出可视化:展示了包含智能体边界框与地图(若可用)的俯视语义视图、平均及逐时间步指标,以及叠加预测轨迹及真实轨迹的前置摄像头视图。

如需了解输出结果以及 AlpaSim 的使用信息,请参阅 TUTORIAL.md 文件。

总体而言,本示例展示了如何通过端到端策略重现真实驾驶场景,包括原始场景中的所有静态和动态目标物。在此基础上,利用 AlpaSim 灵活的即插即用架构,用户可调整干扰车辆的行为、修改摄像头参数,从而对策略进行迭代优化。

策略集成

借助通用 API,策略模型可轻松切换,支持开发人员测试其先进的实现方案。

步骤 1:gRPC 集成

AlpaSim 采用 gRPC 作为组件间的接口:驱动组件的示例实现可作为参考,以确保符合驱动程序接口规范。

步骤 2:重新配置并运行

AlpaSim 支持通过 YAML 文件描述进行高度定制,包括指定仿真器在运行时所需的组件。您可为自己的模型创建新的配置文件(部分示例如下所示)。

# driver_configs/my_model.yaml
 
# @package _global_
services:
  driver:
    image: <user docker image>
    command:
      - "<command to start user-defined service>"

运行:

alpasim_wizard +deploy=local wizard.log_dir=$PWD/my_model +driver_configs=my_model.yaml

使用命令行界面(CLI)进行自定义配置的示例:

运行向导示例时,可更改配置:

# Different scene
alpasim_wizard +deploy=local wizard.log_dir=$PWD/custom_run \
  scenes.scene_ids=['clipgt-02eadd92-02f1-46d8-86fe-a9e338fed0b6']
 
# More rollouts
alpasim_wizard +deploy=local wizard.log_dir=$PWD/custom_run \
  runtime.default_scenario_parameters.n_rollouts=8
 
# Different simulation length
alpasim_wizard +deploy=local wizard.log_dir=$PWD/custom_run \
  runtime.default_scenario_parameters.n_sim_steps=200

配置通过 Hydra 进行管理——请参阅 src/wizard/configs/base_config.yaml 文件查看所有可用选项。

如需下载图 8 所示的场景,可运行以下命令:

hf download --repo-type=dataset \
--local-dir=data/nre-artifacts/all-usdzs \
nvidia/PhysicalAI-Autonomous-Vehicles-NuRec \
sample_set/25.07_release/Batch0001/02eadd92-02f1-46d8-86fe-a9e338fed0b6/02eadd92-02f1-46d8-86fe-a9e338fed0b6.usdz

扩展运行规模

AlpaSim 能够通过协同与并行化服务来适配各类硬件配置,高效支持大型测试套件、扰动测试和模型训练。

alpasim_wizard +deploy=local wizard.log_dir=$PWD/test_suite +experiment=my_test_suite.yaml runtime.default_scenario_parameters.n_rollouts=16

视频 2. 受自车运动或其他智能体行为变化的影响,同一起始点可获得多种场景演变。本例展示了四种不同的推演过程,均源自相同的初始状态。

结论:综合分析

强大的端到端模型是辅助驾驶未来的关键,而 AlpaSim 提供了快速测试和迭代这些模型的能力,从而加速研究进程。本文介绍了 Alpamayo 1 模型、物理 AI 数据集以及 Alpasim 仿真架构。它们共同构成了一套完整的基于推理的辅助驾驶系统开发框架,包含模型、海量训练数据以及用于评估的仿真器。

综合来看,以下视频展示了 Alpamayo 1 在 AlpaSim 仿真环境中穿越施工区域的闭环驾驶实例,既呈现了该模型的推理与驾驶能力,同时也彰显了AlpaSim 在多种真实驾驶场景中评估辅助驾驶模型的能力。

视频 3. Alpamayo 1 在 AlpaSim 中执行闭环驾驶,穿越施工区域时,其推理路径与轨迹预测均通过可视化呈现。

感谢您看到这里!

标签