机器人

NVIDIA DRIVE 上的集中式雷达处理实现更安全、更智能的 L4 级自动驾驶

在当前的汽车雷达发展阶段,机器学习工程师无法直接处理与相机等效的原始 RGB 图像。相反,他们处理的是雷达恒定误报率(constant false alarm rate,CFAR)的输出结果,这类似于计算机视觉(Computer Vision,CV)边缘检测。尽管雷达多年来一直是车载感知系统的核心组件,但其通信和计算架构并未跟上 AI 发展趋势和 L4 级自动驾驶的需求。

真正的 3D/4D “图像”信号实际上是在边缘设备内部进行处理。雷达输出物体,或在某些情况下输出点云,这类似于摄像头输出的经典 CV Canny 边缘检测图像。

NVIDIA DRIVE 上的集中式雷达处理改变了这一模式:原始模拟数字转换器(analog‑to‑digital converter,ADC)数据被传输到集中式计算平台。然后在此基础上,软件层的工作流由专用的 NVIDIA 可编程视觉加速器(NVIDIA Programmable Vision Accelerator,PVA)硬件处理从原始 ADC 样本到点云的所有内容,而 GPU 则在数据流的任何阶段都专于 AI 计算使用。在这种模式下,机器学习 AI 系统不受边缘检测的限制,可以利用全保真雷达图像,提供大约 100 倍的信息可用位数。

移除边缘计算雷达中的高功率数字信号处理器或微控制器单元(DSP/MCU)后,集中式雷达回归到其射频(RF)的根源,并采用简化的印刷电路板(PCB)。这种设计将单位成本降低了 30% 以上,体积减少了约 20%,并实现了超薄的外形。利用中央域控制器的卓越能效,整体系统功耗降低约 20%。这一创新不仅重塑了硬件设计,也与全球绿色能源趋势完美契合。

在本篇博客中,我们将介绍 DRIVE 上的集中式雷达处理工作原理,内容包括:

  • 为什么标准雷达模型会限制高级自动驾驶系统,尤其是 L4 级堆栈,使用雷达数据的能力
  • 如何将原始模拟数字转换器数据传入并移动到 DRIVE 的内存中
  • 可编程视觉加速器如何在不消耗 CPU 或 GPU 的情况下处理雷达信号

为了进行此分析,NVIDIA 与 DRIVE 平台首家原始雷达合作伙伴承泰科技共同以量产级硬件验证了 DRIVE 上的集中计算雷达处理方案。

在 GTC 2026 大会上,NVIDIA 和承泰科技展示了该工作流在 DRIVE AGX Thor 上使用量产级承泰科技雷达单元实现的实时运行表现。

集中式雷达处理如何扩展雷达感知

目前量产车用雷达大多采用边缘处理架构。每个传感器单元都集成了系统级芯片(SoC)或现场可编程门阵列(FPGA),在板载运行固定的信号处理链路,并向中央高级驾驶辅助系统电控单元(ADAS ECU)输出稀疏点云。这种方式让集成更简单,同时降低了传感器与计算平台之间所需的带宽。

不过,需要权衡取舍:

  • 点云仅输出峰值检测结果,其数据量仅为雷达前端原始 ADC 采样数据的约 1/100。例如,本配置中的远距离雷达每帧产生 6 MB 原始 ADC 数据,而点云数据仅 0.064 MB。采用集中式架构、可接入原始或轻度处理雷达数据的系统,能更充分利用底层信号统计特性,从而提升感知效果。
  • 边缘处理模式下,雷达占空比通常低于 50%(即雷达发射信号的时间占比),这往往导致帧率较低(约 20 帧/秒),且/或目标照射功率降低。这对传统 ADAS 触发场景尚可满足,但对于依赖时序信息的大型模型而言,时间分辨率存在明显损失。
  • 受限于边缘雷达 ECU 严格的内存和带宽约束,它必须丢弃中间的频域产物,比如距离快速傅里叶变换(range‑FFT)数据立方体、多普勒‑FFT 数据立方体以及角度 ‑FFT 映射,尽管这些恰恰是最新的学习式雷达模型和信号级融合方法最想访问的信号视图(见 CVPR 2022《面向多任务学习的原始高清雷达》与 ICCV 2023 研讨会《T‑FFTRadNet:基于原始 ADC 雷达信号与 Swin 视觉 Transformer 的目标检测》)。
  • 边缘硬件上的雷达信号处理链路是固定的,受严格的散热与算力约束。集中式处理则允许主机厂或系统集成商部署更深的网络、更高的输入分辨率以及多传感器联合模型,这些在小型雷达 SoC 上难以实现。

L4 堆栈正越来越多地采用大模型与视觉-语言-动作(VLA)架构,直接从原始传感器数据学习,而非处理后输出。这类系统需要来自所有传感器模态的稠密、低层级信号,正如视觉模型受益于原始相机帧而非压缩特征。对雷达而言,这意味着需要重新思考处理的位置与方式。

NVIDIA DRIVE 上的集中计算雷达

集中式雷达将信号处理链路从传感器迁移至 DRIVE 平台,从而解决上述局限。射频前端与天线仍保留在传感器硬件中,但传感器不再运行固定的嵌入式处理链路,而是通过高带宽链路将原始 ADC 采样数据直接传入 DRIVE 平台的动态随机存取存储器(DRAM)。雷达信号处理的全流程均在 DRIVE 专用硬件 PVA 上运行,开发者可掌控完整处理流程。

视频 1. NVIDIA DRIVE AGX Thor 上的集中式雷达处理显示,包括鸟瞰雷达点、多普勒范围图、前方道路的摄像头视图和系统状态面板。

这一方案由三大组件协同实现:

1)为输出原始 ADC 数据配置的传感器

2)用于将原始数据摄入并同步至 DRIVE 内存的驱动栈

3)基于 PVA 的计算库,负责全部雷达数字信号处理(DSP)

这些组件共同让雷达成为 DRIVE 平台上集中管理、由加速器支撑的感知模态,与现代 L4 级架构中相机、激光雷达的集成方式保持一致。

将原始 ADC 数据传入 DRIVE 内存

第一步是将原始 ADC 数据从传感器可靠、大规模地传输至中央内存。在我们的配置中,车辆共部署 5 颗传感器:

  • 1 颗承泰科技 8T8R 前向雷达
  • 4 颗承泰科技 4T4R 角雷达

全部 5 颗单元均配置为输出原始 ADC 数据,而非经过嵌入式处理的点云。整个传感器阵列的原始数据总速率约为 540 MB/s;与之相比,同等配置下基于点云的雷达方案数据速率仅为 4.8 MB/s。

摄入栈通过平台级雷达驱动实现上述能力,驱动可完成:

  • 将传感器配置为原始数据输出模式
  • 以所需吞吐量将 ADC 帧流式传入 DRIVE 内存
  • 通过统一、硬件无关的 API 提供雷达帧
  • 与相机采集共享硬件同步信号,使雷达与图像帧时间对齐,便于多模态融合与训练

从应用视角看,雷达数据以带时间戳、已同步的缓冲区形式存入 DRIVE 内存,可直接进入信号处理阶段。

PVA 上运行雷达信号处理

原始 ADC 缓冲区进入内存后,完整信号处理链路均在 PVA 上运行,使 GPU 可专注于下游 AI 任务。该处理流水线覆盖雷达 DSP 标准环节:

  • 沿快时间轴进行一次距离向 FFT,从而为每个 chirp 生成一条距离轮廓
  • 沿慢时间轴进行多普勒 FFT,估算每个距离单元的径向速度

PVA 正是为这类工作负载量身设计。下图(图 3)展示了 DRIVE AGX Thor 中 PVA 的高层架构。PVA 引擎的核心是高级超长指令字(VLIW)、单指令多数据(SIMD)数字信号处理器(DSP)。它整合了向量处理单元(VPU)、专用 DMA 引擎与片上本地内存(VMEM),可提供持续、高吞吐量的 FFT 性能,并具备确定性的内存访问行为。

PVA 兼具高性能与低功耗特性,可作为异构计算工作流的一部分,与 DRIVE 平台上的 CPU、GPU 及其他加速器异步并行运行。在由五个雷达组成的系统中,将完整的雷达库运行在 PVA 上而不是 GPU 上,可以显著降低 GPU 的占用率,从而为感知和规划等工作负载释放出更多的 GPU 资源。

为支持可定制化工作流,PVA 解决方案提供一组高度优化的通用雷达算子,使开发者无需从零实现每个核心内核,即可快速搭建与定制处理链路。此外,NVIDIA 还提供可编程视觉加速器软件开发套件(PVA SDK),供希望打造自研核心技术的开发者使用。

在我们的配置中,PVA 以 30 帧/秒的速率处理全部五颗雷达的原始数据。全部雷达数字信号处理(DSP)任务均在 PVA 上完成,最大限度降低 CPU 与 GPU 占用,让这些资源可专注用于感知网络、规划模块及其他任务。PVA 使用内存子系统中的预留带宽运行。

各处理阶段的中间结果会写回 DRAM 并保持对系统其他部分可访问,这意味着:

  • 距离-多普勒立方体、角度 FFT 热力图可被可视化或记录用于分析;
  • 感知模型可直接使用点云生成前的原始信号特征;
  • 多雷达融合可在最终检测前于信号级完成,提升整个传感器阵列的抗干扰能力与目标分辨率。

上图图 4 中的距离-多普勒热力图,呈现出传统边缘处理雷达无法输出的稠密频谱结构。在下图图 5 中,该距离-多普勒热力图的峰值被提取,并执行测角计算,最终生成稀疏点云。

向感知与物理 AI 开放雷达信号数据

将雷达集中部署在 DRIVE 平台,不只是取消了每个传感器的 SoC 或 FPGA,更能让平台上运行的感知与 AI 系统看到更完整的信息。

当雷达中间数据存入 DRAM 后,多种技术方案得以落地:

  • 近期研究(如 CVPR 2022《面向多任务学习的原始高清雷达》、ICCV 2023 研讨会《T‑FFTRadNet:基于原始 ADC 雷达信号与 Swin 视觉 Transformer 的目标检测》)已证明,在原始 ADC 信号或距离/多普勒/角度 FFT 特征上训练神经网络,而非仅使用稀疏点云,可实现更丰富的雷达感知。
  • 基于同步的原始数据或点云生成前数据,设计早期融合模型,联合雷达与相机特征。
  • 在信号级实现多雷达单元的相干融合,提升覆盖范围、抑制干扰并应对恶劣工况。

对于已经将摄像头和激光雷达视为一等原始模态的 L4 软件栈来说,引入集中式雷达可以弥补这一差距。雷达可以以与其他传感器相同的数据保真度,参与 VLA 风格的训练流程和其他大模型方法,并复用 DRIVE 已经提供的同一套集中式、软件定义的基础设施。

集中计算雷达是 L4 级感知的未来

DRIVE 平台的集中式雷达处理,旨在解决一个核心局限:当前标准雷达只能向 L4 级系统提供稀疏、碎片化的信息,而底层信号要丰富得多。将雷达以软件定义、加速器支撑的感知模态接入 DRIVE,可在 DRAM 中获取完整雷达信号,由专用硬件(而非 GPU)处理,并与相机、激光雷达时间对齐,供模型学习。

基于上述计算与软件底座,NVIDIA DRIVE Hyperion 参考架构可将雷达纳入与相机、激光雷达一致的集中式软件定义流水线,为主机厂提供面向量产的集中式雷达设计蓝图。

快速上手

如需评估该方案,请与您的雷达供应商合作开启原始数据输出模式,并联合感知团队开发更丰富的雷达感知模型与融合方案。

如需迈向量产,可对接已适配的雷达厂商及其他 NVIDIA DRIVE 生态合作伙伴,并联系您的 NVIDIA 客户经理,获取 PVA SDK 与 PVA 解决方案支持。

致谢

感谢 Mark Vojkovich、Mehmet Umut Demircin、Michael Chen、Balaji Holur、Sean Pieper、Mladen Radovic、Nicolas Droux、Kalle Jokiniemi、Ximing Chen、Romain Ygnace、Sharon Heruti、Jagadeesh Sankaran、Zoran Nikolic、Ching Hung、Yan Yin、Qian Zhan、Dian Luo、Rengui Zhuo(承泰科技)、Feng Deng(承泰科技)、Mo Poorsartep、Cassie Dai 和 Wonsik Han 的贡献。

标签