汽车座舱正在经历一场根本性的变革:从基于规则的传统交互界面,转向具备推理、规划和执行能力的代理式多模态 AI 系统。在目前道路上行驶的大多数车辆中,座舱助手仍然依赖于固定的“指令-响应”模式:解析语音、触发动作、然后重置。
这种方式虽然在处理明确任务时卓有成效,但已难以满足现代用户的期望。如今,驾乘人员更需要一种对话式助手,它不仅能理解模糊的指令、管理多步骤任务,还能随着行程的推进,随时适应不断变化的情境。
大语言模型(LLM)、视觉语言模型(VLM)和语音模型共同开启了一种全新的交互范式。这些模型不再依赖于机械的指令匹配,而是支持具备记忆与推理能力的对话式 AI,实现融合语音、视觉与车辆遥测数据的多模态交互。同时,还能提供具备情境感知能力的主动协助,这种协助能够提前预判用户需求,而不仅仅是被动地响应请求。

这类系统大幅拓宽了座舱体验的边界。以联动日程表的主动问候、智能家居联动为代表的智能化场景,将变得无缝且自然。驾驶员能够实时获取对周边环境及 ADAS(高级驾驶辅助系统)行为的情境化解释,以透明的交互建立信任感。同时,基于自然语言的诊断功能,让预测性维护不再依赖极高的专业门槛。此外,针对儿童或老年乘客定制的个性化舒适模式,也将更易于落地并真正具备实用价值。
规模化应用的背后,蕴含着巨大的市场机遇。据 ABI Research 预测,到 2035 年,采用代理式 AI 的全球汽车出货量预计将从 2025 年的约 500 万辆增长到 7000 万辆。然而,要在车内环境中真正落地这些体验绝非易事。汽车行业对系统延迟、安全性和数据隐私有着极为严苛的要求,这带来了一场真正的系统工程挑战。此外,座舱 AI 助手绝不能是一座“孤岛”;它必须与云端 AI 智能体及各类外部服务无缝打通,从而不断拓展自身的能力边界。
针对这些挑战,本文将详细介绍如何借助 NVIDIA DRIVE 平台,构建一款量产级代理式座舱助手,并深入解析其系统架构、工具及部署路径。
核心挑战:边缘实时 AI
用推理循环取代意图分类工作流,将显著提高对端侧算力的需求。在端侧运行的生产级代理式 AI 助手需要具备以下能力:
- 在本地运行 70 亿参数以上的模型
- 处理多模态输入(如摄像头、音频和遥测数据)
- 保持低时延(响应时间低于 500 毫秒)
- 维持 > 30 token/ 秒的解码吞吐量
- 确保数据隐私 (边缘优先执行)
NVIDIA DRIVE AGX 平台非常适合满足上述要求,汽车制造商(OEM)也可以按照下文所述的不同方式将其集成到整车方案中。
AI Box:面向座舱 AI 大模型加速的专用平台
基于 DRIVE AGX 构建的 AI Box,提供了一种模块化的 AI 算力解决方案,可弥补传统座舱信息娱乐系统级芯片 (SoC) 在推理能力上的不足,从而支持高级 LLM 和 VLM 工作负载的可扩展部署。
作为一个附加的引擎控制单元(ECU),AI Box 能够与大多数现有的车载信息娱乐( IVI )系统无缝集成,仅需一个轻量级接口,即可与座舱计算机进行 Token 和摄像头数据的交互。凭借这一架构,OEM 无需对 IVI 软件栈进行大规模重构,也不必更改车辆的核心电子架构,即可将搭载基础 IVI 系统的车辆,轻松升级为现代化的代理式 AI 平台。

AI Box 搭载了强大的 AI 助手,能够敏锐捕捉场景中的细微变化,从而打造具备情境感知能力的座舱体验。为了实现这一点,系统需要借助车内外的多个摄像头,为运行在 AI Box 上的 AI 智能体提供上下文数据。
座舱内摄像头主要用于识别并记录每位乘客的身份、面部表情、姿态、手势等信息。此外,由 VLM 驱动的智能体还能实现多项关键功能:例如车内遗留检测(如儿童或宠物),以及主动式舒适度管理,该系统能够感知眩光等环境因素,并自动调节遮阳帘和空调出风口。
车外摄像头(如泊车摄像头、人脸识别摄像头)不仅能在增强型哨兵模式下监控周围环境,还能支持无钥匙进入功能。借助多模态 VLM 与高带宽的车外摄像头视频流,座舱 AI 智能体能够执行基于情境的环境查询,用自然语言回答有关车辆周边环境的各类问题。这一应用场景将车外摄像头的功能从单纯的安全与安防传感器,成功升级为了实时的信息交互工具。
当用户提出问题时,例如:“那家餐厅的营业时间是几点?”,VLM 会进行实时推理,识别并解析沿途的标牌、商家名称及兴趣点。随后,这些视觉信息会被输入到 LLM 的推理循环中,为乘客生成基于情境的对话式回答。该功能充分展现了边缘侧视觉处理与对话式 AI 的深度融合,使车辆真正成为博学多识的“副驾”。
基于 DRIVE AGX 构建的 AI Box 具备丰富的接口与强大的图像处理能力,能够接入并处理高带宽的摄像头数据。座舱摄像头、泊车摄像头以及车外摄像头均可直接连接至 AI Box。AI 智能体利用多模态 VLM,对这些摄像头数据进行处理;同时,结合来自 IVI 计算机的音频数据与用户情境信息(以 Token 化形式),最终将生成的智能指令发送至 IVI 计算机的 UX(用户体验)应用程序中。

另一种方案是对摄像头数据进行编码,并通过以太网将其从外部 ECU 传输至 AI Box。基于 DRIVE AGX Orin 或 DRIVE AGX Thor 的 AI Box 配备了专用的高带宽硬件解码器,因此这一解码环节完全不会占用或影响 AI Box 自身的 VLM 推理性能。对于摄像头可能已经连接至其他 ECU 的现有车辆架构,这种方案为 OEM 提供了一种轻量级的集成选择。由于只需增加与 AI Box 的以太网连接,该方案对整车电子电气(EE)架构的改动与影响微乎其微。

与直接在车载信息娱乐 SoC 上运行高级 AI 工作负载相比,基于 DRIVE AGX 构建的汽车 AI Box 提供了一个专为座舱 AI 打造的、解耦的计算平台。它不仅能提供更高的性能、更强的工作负载隔离机制,还能大幅缩短 LLM 和 VLM 应用的落地部署时间。其核心优势包括:
- AI 算力大幅跃升: 相比于主要针对 UI(用户界面)和媒体处理优化的车载信息娱乐 SoC,AI Box 支持运行更大规模的 LLM(最高可达 130 亿参数),并能提供更高、更稳定的推理吞吐量。
- 提供服务质量(QoS)保障的专用显存带宽: 为 LLM 推理分配独立且有保障的专用显存带宽。即使在信息娱乐、图形渲染或多媒体等并发任务同时运行的情况下,也能确保系统性能稳定且可预测。
- 确定性、高吞吐的推理性能: 能够持续提供流畅对话体验所需的高 Token 解码速率,且不受座舱工作负载波动的影响。
- 依托生产就绪平台加快落地: 基于车规级硬件和经过验证、可直接投入生产的软件栈,从项目启动之初即可支持快速部署。
- 无需改动车辆现有电子架构: 以模块化附加组件的形式与现有座舱系统协同部署,避免对 IVI 平台进行高成本的重新设计或重新认证。
- 独立的 AI 升级节奏: 支持 OEM 在不影响 UI 稳定性、验证流程或认证周期的前提下,独立于信息娱乐系统持续演进 AI 能力,并实现更高频的模型与应用更新。
AI Box 赋能 OEM 为任意车型注入强大的代理式 AI 能力。通过引入 DRIVE AGX 的 LLM 推理性能,OEM 无需重新设计现有的 IVI 系统,即可将新一代的 AI 座舱体验带入车内。
为了满足不同细分车型的规模化应用需求,AI Box 提供了两种配置选择:
基于 DRIVE AGX Orin 的 AI Box,为当下的主流车型带来了可直接量产落地的高性能 AI;而基于 DRIVE AGX Thor 的 AI Box,以 NVIDIA 新一代 Blackwell GPU 架构,专为高端旗舰车型提供更先进的 LLM 智能体验。
DRIVE AGX Thor:多域 AI 计算机

DRIVE AGX Thor 通过 Blackwell GPU 架构扩展了 DRIVE AGX 平台的功能,可提供出色的边缘推理性能。它提供了充足的算力空间,能够在一个统一的多域 AI 计算平台上,同时承载辅助驾驶(AV)与座舱 AI 工作负载。此外,Thor 还内置了完备的软硬件机制,以确保混合关键性工作负载之间的安全隔离,并提供严格的免干扰(FFI,Freedom from Interference)保障。
DRIVE AGX Thor 强大的 AI 性能和广泛的隔离功能使车辆 E/ E 架构的集中度达到了新的水平。OEM 可以在 DRIVE AGX Thor 上部署车内的所有 AI 功能,并在辅助驾驶与座舱 AI 域之间,复用相同的软件环境与 AI 工具链。
搭载 DRIVE AGX 和 MediaTek 天玑(Dimensity) AX 的中央车端计算平台

DRIVE AGX 还可以与 MediaTek 的 天玑 AX C-X1 座舱 SoC 搭配使用,在中央计算平台内打造领先的座舱与辅助驾驶体验。尽管 C-X1 本身已内置能够运行 LLM 推理的 NVIDIA GPU,但与 DRIVE AGX SoC 结合使用可有效卸载 AI 工作负载,这不仅能支持更多模型并发运行,从而赋能更丰富的多模态场景;还能让 C-X1 专注处理高端座舱游戏与多媒体等其他重度座舱任务。
此外,MediaTek 天玑平台能够与 DRIVE AGX Orin 和 Thor 共享 DriveOS 运行环境。这种统一的软件底座极大简化了跨 AI 域与 IVI 域的开发工作。同时,借助 DriveOS NvStreams API,视频和音频等高带宽数据可以通过 PCIe 链路实现高效、无缝的跨域共享。

DRIVE AGX 和 MediaTek 天玑 AX 的联合,为 OEM 提供了一套兼具极高可扩展性、出色的 LLM 推理性能以及统一软件架构的解决方案。它能够支持车内所有的 AI 功能,覆盖辅助驾驶与座舱 AI 两大核心领域。MediaTek 天玑 AX 可作为上述任意一种架构的首选座舱计算方案,与 NVIDIA DRIVE AGX 实现无缝集成。无论是以 AI Box、多域 AI 计算平台,还是中央计算平台的形式部署,OEM 都能拥有灵活多样的E/E架构设计选择,从而打造出真正面向未来的 AI 原生汽车。
混合架构:从云端到边缘的 AI 推理
尽管 DRIVE AGX 与 MediaTek 解决方案为边缘侧 AI 助手提供了强大的算力支持,但在实际使用中,诸如网络搜索、社交媒体交互以及行程规划等许多高频任务,依然需要与 Web API 及云端智能体进行深度集成。在面对这类场景时,云端推理能够调用更庞大、性能更强的大模型,以应对信息量大且极具复杂度的用户请求。
因此,将边缘侧与云端 AI 深度融合的全链路架构,才是提供最佳用户体验的路径:
- 智能体编排: 系统能够根据用户的意图和当前的情境,将任务精准分配给合适的本地或 web 智能体进行处理。在多数情况下,这需要多个智能体的协同合作。例如,在规划旅程时,可能需要调用本地导航智能体来规划路线、调用云端智能体来搜索沿途景点与餐厅,并由本地知识库智能体来介绍目的地的人文背景。此外,AI 助手还能被多种条件主动唤醒,如车辆事件(前方交通拥堵)、外部事件(收到新邮件)或系统预设的自动化流程。
- 下文共享: 在云端智能体介入任务时,向其同步相关的上下文信息是确保无缝体验的关键。如果云端助手反复询问用户之前已经提供过的信息,将极大地损害用户体验。同样地,云端智能体也会掌握一些对本地智能体至关重要的信息。例如,它知道驾驶员即将会接入一场重要的线上会议,因此会通知本地智能体在此期间减少非必要的弹窗或语音提示,避免让驾驶员信息过载。
- UX(用户体验)透明度: 网络搜索与远程工具调用通常存在延迟,且一旦网络连接中断,发送至云端的请求可能无法返回结果。如果系统不及时同步这些状态,不仅会打破用户的心理预期,还会造成体验割裂。因此,座舱 AI 助手必须具备追踪异步工作负载的能力,实时掌握请求的预期完成时间及网络连接状态,并提前部署好本地兜底机制(Fallback mechanisms)。

构建混合式座舱代理式 AI 工作流
座舱 AI 助手能够结合车内情境与外部信号,准确理解乘客意图,从而提供及时、相关且具有前瞻性的响应。面对更复杂的任务时,它还能与云端 AI 智能体无缝协同,完成信息检索、服务调用,并将能力边界从车内进一步延伸到车外。
要实现这样的体验,仅靠简单的“提示-响应”模式已远远不够。助手必须具备规划能力,能够调用导航、车辆 API 和知识系统等工具,并围绕用户目标进行迭代执行。这背后依赖的是一套代理式 AI 工作流:它将智能体编排、工具调用和记忆机制,与完善的策略约束和兜底机制结合起来,从而确保多步骤任务能够在车内系统的时延和权限约束下安全完成。
代理式 AI 工作流依赖于以下关键组件:
- 自动语音识别 (ASR) :将座舱麦克风音频转换为文本 (通常使用降噪和唤醒词或端点识别功能) ,以便后续推理在可靠的转录文本上运行。
快速上手:NVIDIA Nemotron 语音 ASR 模型 - 编排器与智能体框架(Orchestrator and Agent Framework): 负责意图分发、维护会话状态、选择技能或工具,并执行各项系统策略(如超时处理、兜底机制,以及智能体在车内所被允许修改的设置权限) 。
快速上手:用于智能体开发的 NeMo Agent Toolkit - LLM 推理引擎: 该框架负责处理 Token 化、批处理、KV 缓存管理以及硬件加速执行,确保模型在目标 SoC 或云端链路上均能满足实时或接近实时的时延要求。
快速上手:用于服务器端 LLM 推理的 TensorRT-LLM,用于边缘推理的 TensorRT Edge-LLM 和构建、定制和优化模型的 NVIDIA NeMo - AI 模型: 借助开源或专有的 LLM 与 VLM 模型权重,为系统提供强大的语言理解与总结能力,甚至实现对座舱内部及车外环境的视觉感知。
快速上手:NVIDIANemotron 系列开源模型,TensorRT-LLM 支持的模型以及TensorRT Edge-LLM 支持的模型 - 文本转语音(Text-to-speech , TTS):将助手生成的最终回答转换为自然流畅的语音输出,保持一致的音色,并采用适合驾驶场景的语调与韵律,同时输出可被座舱音频系统稳定播放的音频格式。
快速上手:NVIDIA Magpie TTS 模型
图 9 展示了这些组件如何在端云协同的代理式 AI 流水线中相互串联。

从 AI 工厂到车端部署
开发代理式座舱助手,需要采用一套不同于传统语音指令系统的开发流程。整个过程始于 AI 工厂,在这里,模型会完成训练、微调与评估,并被大规模集成到代理式 AI 流水线中。这样的云端环境能够结合企业数据、仿真体系和编排流水线,支持 AI 助手的快速迭代、持续优化与系统验证。

NVIDIA NeMo 是一个用于构建、定制和部署企业生成式 AI 模型的端到端平台,它提供了一套完整的工具链,支持跨端云环境进行数据清洗与管理、训练、微调、评估以及带有安全护栏的部署。NeMo 全面支持大语言模型、多模态模型、RAG(检索增强生成)以及代理式工作流,助力企业打造具备高扩展性、可直接量产落地的 AI 应用。
经过验证后,模型与流水线针对边缘侧部署进行了优化,并被导入车端系统中。借助 CUDA 与 TensorRT,一套统一的 GPU 编程模型即可横跨云端与嵌入式环境,从而确保从开发到部署的全链路一致性。在此基础上,模型还会经过量化、剪枝等进一步优化,并使用 TensorRT Edge-LLM 部署于 AI Box 之上,以实现高性能、低时延的推理表现。
这种从 AI 工厂到车端执行的无缝打通,不仅实现了持续创新,同时也契合了座舱 AI 对低时延、隐私与系统可靠性的严苛要求。

TensorRT Edge-LLM 是 NVIDIA 专为嵌入式平台打造的推理框架,广泛支持 LLM、VLM 和视觉语言动作模型(VLA)等各类自回归模型。该框架专为满足嵌入式环境的严苛需求而设计,具备低时延、低内存与算力占用,并将系统依赖降至最低。TensorRT Edge-LLM 支持包括 NVIDIA Nemotron 开源模型系列在内的各种最新边缘友好型模型,并已在 GitHub 上开源。

开始使用
在基于 NVIDIA DRIVE AGX 平台构建的 AI Box 上开发座舱 AI 应用,可以通过以下步骤开始:
- 使用 NeMo 以及 NIM 进行云端原型验证
- 通过 TensorRT-LLM 优化云代理的推理
- 使用 NeMo Agent Toolkit 构建智能体编排器并完成工具集成
- 通过 TensorRT Edge-LLM 将应用部署至 DRIVE AGX 开发套件
- 联系我们的合作伙伴,实现 DRIVE AI Box 量产:
- 平台 (硬件+ 软件) 提供商:博世,德赛西威,联想、博泰车联、中科创达、Visteon
- 软件 (模型+ 流水线) 提供商:Amazon Alexa、诚迈科技、Cerence AI,火山引擎
- 通过端云协同的反馈闭环持续迭代
NVIDIA 提供了一条从 AI 工厂到边缘侧 DRIVE AGX 的全栈路径,为智能、多模态、代理式座舱体验的量产落地提供了完整且生产就绪的实现方案。