自动驾驶

如何借助 NVIDIA 构建云端协同的座舱 AI 智能体

2026年 5月 5日

作者：Felix Friedmann, Xavier Zhu, Sri Subramanian 和 Iris Cui

汽车座舱正在经历一场根本性的变革：从基于规则的传统交互界面，转向具备推理、规划和执行能力的代理式多模态 AI 系统。在目前道路上行驶的大多数车辆中，座舱助手仍然依赖于固定的“指令-响应”模式：解析语音、触发动作、然后重置。

这种方式虽然在处理明确任务时卓有成效，但已难以满足现代用户的期望。如今，驾乘人员更需要一种对话式助手，它不仅能理解模糊的指令、管理多步骤任务，还能随着行程的推进，随时适应不断变化的情境。

大语言模型（LLM）、视觉语言模型（VLM）和语音模型共同开启了一种全新的交互范式。这些模型不再依赖于机械的指令匹配，而是支持具备记忆与推理能力的对话式 AI，实现融合语音、视觉与车辆遥测数据的多模态交互。同时，还能提供具备情境感知能力的主动协助，这种协助能够提前预判用户需求，而不仅仅是被动地响应请求。

这类系统大幅拓宽了座舱体验的边界。以联动日程表的主动问候、智能家居联动为代表的智能化场景，将变得无缝且自然。驾驶员能够实时获取对周边环境及 ADAS（高级驾驶辅助系统）行为的情境化解释，以透明的交互建立信任感。同时，基于自然语言的诊断功能，让预测性维护不再依赖极高的专业门槛。此外，针对儿童或老年乘客定制的个性化舒适模式，也将更易于落地并真正具备实用价值。

规模化应用的背后，蕴含着巨大的市场机遇。据 ABI Research 预测，到 2035 年，采用代理式 AI 的全球汽车出货量预计将从 2025 年的约 500 万辆增长到 7000 万辆。然而，要在车内环境中真正落地这些体验绝非易事。汽车行业对系统延迟、安全性和数据隐私有着极为严苛的要求，这带来了一场真正的系统工程挑战。此外，座舱 AI 助手绝不能是一座“孤岛”；它必须与云端 AI 智能体及各类外部服务无缝打通，从而不断拓展自身的能力边界。

针对这些挑战，本文将详细介绍如何借助 NVIDIA DRIVE 平台，构建一款量产级代理式座舱助手，并深入解析其系统架构、工具及部署路径。

核心挑战：边缘实时 AI

用推理循环取代意图分类工作流，将显著提高对端侧算力的需求。在端侧运行的生产级代理式 AI 助手需要具备以下能力：

在本地运行 70 亿参数以上的模型
处理多模态输入（如摄像头、音频和遥测数据）
保持低时延（响应时间低于 500 毫秒）
维持 > 30 token/ 秒的解码吞吐量
确保数据隐私 (边缘优先执行)

NVIDIA DRIVE AGX 平台非常适合满足上述要求，汽车制造商（OEM）也可以按照下文所述的不同方式将其集成到整车方案中。

AI Box：面向座舱 AI 大模型加速的专用平台

基于 DRIVE AGX 构建的 AI Box，提供了一种模块化的 AI 算力解决方案，可弥补传统座舱信息娱乐系统级芯片 (SoC) 在推理能力上的不足，从而支持高级 LLM 和 VLM 工作负载的可扩展部署。

作为一个附加的引擎控制单元（ECU），AI Box 能够与大多数现有的车载信息娱乐（ IVI ）系统无缝集成，仅需一个轻量级接口，即可与座舱计算机进行 Token 和摄像头数据的交互。凭借这一架构，OEM 无需对 IVI 软件栈进行大规模重构，也不必更改车辆的核心电子架构，即可将搭载基础 IVI 系统的车辆，轻松升级为现代化的代理式 AI 平台。

AI Box 搭载了强大的 AI 助手，能够敏锐捕捉场景中的细微变化，从而打造具备情境感知能力的座舱体验。为了实现这一点，系统需要借助车内外的多个摄像头，为运行在 AI Box 上的 AI 智能体提供上下文数据。

座舱内摄像头主要用于识别并记录每位乘客的身份、面部表情、姿态、手势等信息。此外，由 VLM 驱动的智能体还能实现多项关键功能：例如车内遗留检测（如儿童或宠物），以及主动式舒适度管理，该系统能够感知眩光等环境因素，并自动调节遮阳帘和空调出风口。

车外摄像头（如泊车摄像头、人脸识别摄像头）不仅能在增强型哨兵模式下监控周围环境，还能支持无钥匙进入功能。借助多模态 VLM 与高带宽的车外摄像头视频流，座舱 AI 智能体能够执行基于情境的环境查询，用自然语言回答有关车辆周边环境的各类问题。这一应用场景将车外摄像头的功能从单纯的安全与安防传感器，成功升级为了实时的信息交互工具。

当用户提出问题时，例如：“那家餐厅的营业时间是几点？”，VLM 会进行实时推理，识别并解析沿途的标牌、商家名称及兴趣点。随后，这些视觉信息会被输入到 LLM 的推理循环中，为乘客生成基于情境的对话式回答。该功能充分展现了边缘侧视觉处理与对话式 AI 的深度融合，使车辆真正成为博学多识的“副驾”。

基于 DRIVE AGX 构建的 AI Box 具备丰富的接口与强大的图像处理能力，能够接入并处理高带宽的摄像头数据。座舱摄像头、泊车摄像头以及车外摄像头均可直接连接至 AI Box。AI 智能体利用多模态 VLM，对这些摄像头数据进行处理；同时，结合来自 IVI 计算机的音频数据与用户情境信息（以 Token 化形式），最终将生成的智能指令发送至 IVI 计算机的 UX（用户体验）应用程序中。

另一种方案是对摄像头数据进行编码，并通过以太网将其从外部 ECU 传输至 AI Box。基于 DRIVE AGX Orin 或 DRIVE AGX Thor 的 AI Box 配备了专用的高带宽硬件解码器，因此这一解码环节完全不会占用或影响 AI Box 自身的 VLM 推理性能。对于摄像头可能已经连接至其他 ECU 的现有车辆架构，这种方案为 OEM 提供了一种轻量级的集成选择。由于只需增加与 AI Box 的以太网连接，该方案对整车电子电气（EE）架构的改动与影响微乎其微。

与直接在车载信息娱乐 SoC 上运行高级 AI 工作负载相比，基于 DRIVE AGX 构建的汽车 AI Box 提供了一个专为座舱 AI 打造的、解耦的计算平台。它不仅能提供更高的性能、更强的工作负载隔离机制，还能大幅缩短 LLM 和 VLM 应用的落地部署时间。其核心优势包括：

AI 算力大幅跃升：相比于主要针对 UI（用户界面）和媒体处理优化的车载信息娱乐 SoC，AI Box 支持运行更大规模的 LLM（最高可达 130 亿参数），并能提供更高、更稳定的推理吞吐量。
提供服务质量（QoS）保障的专用显存带宽：为 LLM 推理分配独立且有保障的专用显存带宽。即使在信息娱乐、图形渲染或多媒体等并发任务同时运行的情况下，也能确保系统性能稳定且可预测。
确定性、高吞吐的推理性能：能够持续提供流畅对话体验所需的高 Token 解码速率，且不受座舱工作负载波动的影响。
依托生产就绪平台加快落地：基于车规级硬件和经过验证、可直接投入生产的软件栈，从项目启动之初即可支持快速部署。
无需改动车辆现有电子架构：以模块化附加组件的形式与现有座舱系统协同部署，避免对 IVI 平台进行高成本的重新设计或重新认证。
独立的 AI 升级节奏：支持 OEM 在不影响 UI 稳定性、验证流程或认证周期的前提下，独立于信息娱乐系统持续演进 AI 能力，并实现更高频的模型与应用更新。

AI Box 赋能 OEM 为任意车型注入强大的代理式 AI 能力。通过引入 DRIVE AGX 的 LLM 推理性能，OEM 无需重新设计现有的 IVI 系统，即可将新一代的 AI 座舱体验带入车内。

为了满足不同细分车型的规模化应用需求，AI Box 提供了两种配置选择：

基于 DRIVE AGX Orin 的 AI Box，为当下的主流车型带来了可直接量产落地的高性能 AI；而基于 DRIVE AGX Thor 的 AI Box，以 NVIDIA 新一代 Blackwell GPU 架构，专为高端旗舰车型提供更先进的 LLM 智能体验。

DRIVE AGX Thor：多域 AI 计算机

DRIVE AGX Thor 通过 Blackwell GPU 架构扩展了 DRIVE AGX 平台的功能，可提供出色的边缘推理性能。它提供了充足的算力空间，能够在一个统一的多域 AI 计算平台上，同时承载辅助驾驶（AV）与座舱 AI 工作负载。此外，Thor 还内置了完备的软硬件机制，以确保混合关键性工作负载之间的安全隔离，并提供严格的免干扰（FFI，Freedom from Interference）保障。

DRIVE AGX Thor 强大的 AI 性能和广泛的隔离功能使车辆 E/ E 架构的集中度达到了新的水平。OEM 可以在 DRIVE AGX Thor 上部署车内的所有 AI 功能，并在辅助驾驶与座舱 AI 域之间，复用相同的软件环境与 AI 工具链。

搭载 DRIVE AGX 和 MediaTek 天玑（Dimensity） AX 的中央车端计算平台

DRIVE AGX 还可以与 MediaTek 的天玑 AX C-X1 座舱 SoC 搭配使用，在中央计算平台内打造领先的座舱与辅助驾驶体验。尽管 C-X1 本身已内置能够运行 LLM 推理的 NVIDIA GPU，但与 DRIVE AGX SoC 结合使用可有效卸载 AI 工作负载，这不仅能支持更多模型并发运行，从而赋能更丰富的多模态场景；还能让 C-X1 专注处理高端座舱游戏与多媒体等其他重度座舱任务。

此外，MediaTek 天玑平台能够与 DRIVE AGX Orin 和 Thor 共享 DriveOS 运行环境。这种统一的软件底座极大简化了跨 AI 域与 IVI 域的开发工作。同时，借助 DriveOS NvStreams API，视频和音频等高带宽数据可以通过 PCIe 链路实现高效、无缝的跨域共享。

DRIVE AGX 和 MediaTek 天玑 AX 的联合，为 OEM 提供了一套兼具极高可扩展性、出色的 LLM 推理性能以及统一软件架构的解决方案。它能够支持车内所有的 AI 功能，覆盖辅助驾驶与座舱 AI 两大核心领域。MediaTek 天玑 AX 可作为上述任意一种架构的首选座舱计算方案，与 NVIDIA DRIVE AGX 实现无缝集成。无论是以 AI Box、多域 AI 计算平台，还是中央计算平台的形式部署，OEM 都能拥有灵活多样的E/E架构设计选择，从而打造出真正面向未来的 AI 原生汽车。

混合架构：从云端到边缘的 AI 推理

尽管 DRIVE AGX 与 MediaTek 解决方案为边缘侧 AI 助手提供了强大的算力支持，但在实际使用中，诸如网络搜索、社交媒体交互以及行程规划等许多高频任务，依然需要与 Web API 及云端智能体进行深度集成。在面对这类场景时，云端推理能够调用更庞大、性能更强的大模型，以应对信息量大且极具复杂度的用户请求。

因此，将边缘侧与云端 AI 深度融合的全链路架构，才是提供最佳用户体验的路径：

智能体编排：系统能够根据用户的意图和当前的情境，将任务精准分配给合适的本地或 web 智能体进行处理。在多数情况下，这需要多个智能体的协同合作。例如，在规划旅程时，可能需要调用本地导航智能体来规划路线、调用云端智能体来搜索沿途景点与餐厅，并由本地知识库智能体来介绍目的地的人文背景。此外，AI 助手还能被多种条件主动唤醒，如车辆事件（前方交通拥堵）、外部事件（收到新邮件）或系统预设的自动化流程。
下文共享：在云端智能体介入任务时，向其同步相关的上下文信息是确保无缝体验的关键。如果云端助手反复询问用户之前已经提供过的信息，将极大地损害用户体验。同样地，云端智能体也会掌握一些对本地智能体至关重要的信息。例如，它知道驾驶员即将会接入一场重要的线上会议，因此会通知本地智能体在此期间减少非必要的弹窗或语音提示，避免让驾驶员信息过载。
UX（用户体验）透明度：网络搜索与远程工具调用通常存在延迟，且一旦网络连接中断，发送至云端的请求可能无法返回结果。如果系统不及时同步这些状态，不仅会打破用户的心理预期，还会造成体验割裂。因此，座舱 AI 助手必须具备追踪异步工作负载的能力，实时掌握请求的预期完成时间及网络连接状态，并提前部署好本地兜底机制（Fallback mechanisms）。

构建混合式座舱代理式 AI 工作流

座舱 AI 助手能够结合车内情境与外部信号，准确理解乘客意图，从而提供及时、相关且具有前瞻性的响应。面对更复杂的任务时，它还能与云端 AI 智能体无缝协同，完成信息检索、服务调用，并将能力边界从车内进一步延伸到车外。

要实现这样的体验，仅靠简单的“提示-响应”模式已远远不够。助手必须具备规划能力，能够调用导航、车辆 API 和知识系统等工具，并围绕用户目标进行迭代执行。这背后依赖的是一套代理式 AI 工作流：它将智能体编排、工具调用和记忆机制，与完善的策略约束和兜底机制结合起来，从而确保多步骤任务能够在车内系统的时延和权限约束下安全完成。

代理式 AI 工作流依赖于以下关键组件：

自动语音识别 (ASR) ：将座舱麦克风音频转换为文本 (通常使用降噪和唤醒词或端点识别功能) ，以便后续推理在可靠的转录文本上运行。
快速上手：NVIDIA Nemotron 语音 ASR 模型
编排器与智能体框架（Orchestrator and Agent Framework）：负责意图分发、维护会话状态、选择技能或工具，并执行各项系统策略（如超时处理、兜底机制，以及智能体在车内所被允许修改的设置权限）。
快速上手：用于智能体开发的 NeMo Agent Toolkit
LLM 推理引擎：该框架负责处理 Token 化、批处理、KV 缓存管理以及硬件加速执行，确保模型在目标 SoC 或云端链路上均能满足实时或接近实时的时延要求。
快速上手：用于服务器端 LLM 推理的 TensorRT-LLM，用于边缘推理的 TensorRT Edge-LLM 和构建、定制和优化模型的 NVIDIA NeMo
AI 模型：借助开源或专有的 LLM 与 VLM 模型权重，为系统提供强大的语言理解与总结能力，甚至实现对座舱内部及车外环境的视觉感知。
快速上手：NVIDIANemotron 系列开源模型，TensorRT-LLM 支持的模型以及TensorRT Edge-LLM 支持的模型
文本转语音（Text-to-speech , TTS）：将助手生成的最终回答转换为自然流畅的语音输出，保持一致的音色，并采用适合驾驶场景的语调与韵律，同时输出可被座舱音频系统稳定播放的音频格式。
快速上手：NVIDIA Magpie TTS 模型

图 9 展示了这些组件如何在端云协同的代理式 AI 流水线中相互串联。

从 AI 工厂到车端部署

开发代理式座舱助手，需要采用一套不同于传统语音指令系统的开发流程。整个过程始于 AI 工厂，在这里，模型会完成训练、微调与评估，并被大规模集成到代理式 AI 流水线中。这样的云端环境能够结合企业数据、仿真体系和编排流水线，支持 AI 助手的快速迭代、持续优化与系统验证。

NVIDIA NeMo 是一个用于构建、定制和部署企业生成式 AI 模型的端到端平台，它提供了一套完整的工具链，支持跨端云环境进行数据清洗与管理、训练、微调、评估以及带有安全护栏的部署。NeMo 全面支持大语言模型、多模态模型、RAG（检索增强生成）以及代理式工作流，助力企业打造具备高扩展性、可直接量产落地的 AI 应用。

经过验证后，模型与流水线针对边缘侧部署进行了优化，并被导入车端系统中。借助 CUDA 与 TensorRT，一套统一的 GPU 编程模型即可横跨云端与嵌入式环境，从而确保从开发到部署的全链路一致性。在此基础上，模型还会经过量化、剪枝等进一步优化，并使用 TensorRT Edge-LLM 部署于 AI Box 之上，以实现高性能、低时延的推理表现。

这种从 AI 工厂到车端执行的无缝打通，不仅实现了持续创新，同时也契合了座舱 AI 对低时延、隐私与系统可靠性的严苛要求。

TensorRT Edge-LLM 是 NVIDIA 专为嵌入式平台打造的推理框架，广泛支持 LLM、VLM 和视觉语言动作模型（VLA）等各类自回归模型。该框架专为满足嵌入式环境的严苛需求而设计，具备低时延、低内存与算力占用，并将系统依赖降至最低。TensorRT Edge-LLM 支持包括 NVIDIA Nemotron 开源模型系列在内的各种最新边缘友好型模型，并已在 GitHub 上开源。

开始使用

在基于 NVIDIA DRIVE AGX 平台构建的 AI Box 上开发座舱 AI 应用，可以通过以下步骤开始：

使用 NeMo 以及 NIM 进行云端原型验证
通过 TensorRT-LLM 优化云代理的推理
使用 NeMo Agent Toolkit 构建智能体编排器并完成工具集成
通过 TensorRT Edge-LLM 将应用部署至 DRIVE AGX 开发套件
联系我们的合作伙伴，实现 DRIVE AI Box 量产：
- 平台 (硬件+ 软件) 提供商：博世，德赛西威，联想、博泰车联、中科创达、Visteon
- 软件 (模型+ 流水线) 提供商：Amazon Alexa、诚迈科技、Cerence AI，火山引擎
通过端云协同的反馈闭环持续迭代

NVIDIA 提供了一条从 AI 工厂到边缘侧 DRIVE AGX 的全栈路径，为智能、多模态、代理式座舱体验的量产落地提供了完整且生产就绪的实现方案。

关于作者

Felix Friedmann 是 NVIDIA DRIVE 平台的产品和工程主管，涵盖 NVIDIA 嵌入式 AI 推理和 NVIDIA DriveWorks。他将嵌入式视觉语言模型等最新技术创新与汽车软件平台所需的可靠性和安全性相结合。自 NVIDIA DRIVE 平台问世以来，Felix 一直在前一个职位上与之合作，当时他在奥迪将早期的深度学习模型引入嵌入式应用程序，并为 atVW 的 AID 智能汽车和后来的 Argo AI 设计了感知和系统架构。

查看 Felix Friedmann 所有文章

Xavier Zhu 是 NVIDIA SoC 产品架构团队的总监。他负责构建 NVIDIA 汽车 SoC 的产品愿景、制定产品路线图并进行 SoC 规格制定。他专注于车内 AI 平台和 NVIDIA DRIVE AGX SoC 的应用案例，以及与联发科合作开发 Dimensity AX SoC。

查看 Xavier Zhu 所有文章

Sri Subramanian 是 NVIDIA 全球汽车生成式人工智能负责人，负责领导公司在全球汽车领域的 GenAI 业务。Sri 致力于推动 GenAI 在汽车价值链中的应用，涵盖从车载体验到制造和企业转型等各个环节，他使用的技术包括 NeMo、Nemotron 模型和 NIM 微服务，以及用于车载人工智能的 NVIDIA DRIVE。

查看 Sri Subramanian 所有文章

Iris Cui 是 NVIDIA 汽车 AI 驾驶舱的合作伙伴负责人。她在汽车行业拥有 10 多年的专业经验，工作重点是通过生态系统合作伙伴关系和创新平台策略加速采用 NVIDIA 的先进汽车技术。她目前负责与 MediaTek 合作开发新一代 AI 驾驶舱 SoC – Dimensity AX C 系列。她还推动了 NVIDIA DRIVE AGX 平台在自动驾驶和车载 AI 领域的全球采用。Iris 拥有南加州大学工商管理硕士学位。

查看 Iris Cui 所有文章