联系我们登录
二维码登录过期
点此刷新
联系我们
电话:023-81908688
邮箱:icv50@wicv.cn
地址:西部(重庆)科学城
高新区科学谷F2、F3
技术支撑  2025.03.28
返回列表
自动驾驶的中间表达与无图NOA:BEV,OCC,3D高斯泼溅,在线高精地图
本文转载自:焉知汽车

作者咖啡鱼

出品 | 焉知汽车

   

一、自动驾驶的中间表达 


 

自动驾驶一般分为感知-决策/规划-控制,所谓端到端也只是将这三个阶段归一到一个大模型。


 

自动驾驶系统在每一个计算周期内,都需要维护一个“内部棋盘”,在上面摆上本周期感知到的所有障碍物棋子(其它车辆,行人,跑到路上的宠物等等)和周边环境棋子(比如安全岛,花坛,马路牙子,街边建筑物,交通灯和交通标识,树木,河流湖泊等等),以及本车棋子;然后在这个内部棋盘上决策/规划本车运动路径(含速度),好让本车安全绕过所有障碍物到达目的地。


 

摆上去的棋子当然是越全越好,不仅涵盖静态和动态障碍物,还要知道每样东西是什么东东(语义识别),还要位置精确(定位),对于动态障碍物还要有速度和运动方向,用于预测它们的下一步位置。


 

这个内部棋盘,就被称为中间表达。更加学术更加正式的描述是,自动驾驶中间表达(Intermediate Representations, IR)是指在自动驾驶系统中,用于连接感知层与决策层的抽象表示形式。这些中间表达通常是从原始传感器数据(如摄像头图像、激光雷达点云等)经过处理后生成的高层次特征或结构化数据,它们能够更好地服务于下游任务,例如路径规划、(障碍物)行为预测等。


 

中间表达可以是BEV鸟瞰图,可以是occ,occupied network占据网络,可以直接是高精地图,可以是3d高斯泼溅,可以是实时构建的在线高精地图,也可以是车辆OEM自定义的任何一种地图表达。


 

比如特斯拉FSD在取消每年例行的AI day发布前,最后的技术报道是占用网络OCC做这个中间表达。现在估计这一点不会有很大变化。

 

当然,高精地图也可以作为这个中间表达的基础。


 

由于高精地图的昂贵和体积庞大,以及缺乏实时性(甚至静态环境也会变,比如路边树木砍伐掉了),也由于SLAM,同时建图和定位技术,的发展,实时建立局部高精地图作为中间表达,这称为在线高精地图。   


 

图1 一段式端到端和多段式端到端无人驾驶,图片来自网络


 

一站式端到端自动驾驶不需要这个中间表达,因为它是直接从感知数据到执行指令,没有在中间表达上进行路径规划的这个动作。当然,也存在执行指令可解释性的问题。执行指令是直接从感知数据对应(mapping)过来的,缺乏逻辑解释。

两阶段端到端自动驾驶,分为感知和规控两部分的,规控部分还是需要标注了本车和其它周遭障碍物的中间表达作为输入。


 

本来自动驾驶的规划决策部分,一般是图论算法+路径平滑来做的。但两阶段端到端自动驾驶决策规划也是靠大模型神经网络来做的,这是两阶段端到端自动驾驶和经典自动驾驶方案的区别。

         

二、高精地图与无图NOA 


 

无图NOA的英文全称是 Navigate on Autopilot 。这一术语通常用于描述一种先进的驾驶辅助系统,特别针对城市交通环境开发,主要依靠车辆自身的感知和决策系统来实现自动驾驶功能,而不需要依赖高精地图的支持。无图 NOA 不依赖高精地图等先验信息,而是依托于基础的 GPS 导航地图服务,来提供精确的线路规划和行驶辅助。   


 

图2 无图NOA,图片来自网络


 

无图的实现方案很多种,包括上述在线高精地图,也包括仅仅依靠本车传感器识别所有物体,包括交通信号,来构建实时occ占据网络或者其他自定义中间表达,这种中间表达不如预先扫描的高精地图那么精确,但是胜在体积小和实时性高。

至于端到端自动驾驶也可以是视作无图NOA的一个特例分支。

无图NOA的功能特点:

 

哪里都能开:只要是车端能发起导航的地方,无论城市主干道、辅路支路、高速高架快速路,还是乡间路、盘山路、景区路等,都能开启无图 NOA,实现 “全国都能开” 的体验。


 

平滑的绕行能力:具备时空联合规划能力,可持续预测自车与他车行驶轨迹,遇到占道的车辆、行人、骑行人、异形障碍物等,能像老司机一样选择最优路线果断绕行。


 

轻松应对复杂路口:BEV 视觉模型融合导航匹配算法,为车辆打开 “上帝视角”,在复杂路口选路更准,能轻松通过,减少接管次数,提高通行效率。


 

考虑用户心理安全:通过视觉与激光雷达前融合的占用网络,更早识别路沿、安全岛等不规则通用障碍物,遇见路权博弈的交通参与者更早预警,加减速时机更得当,以分米级微操带来默契安心的智驾体验。   


 

图3 无图NOA的四大能力,图片来自网络


 

举个例子,理想汽车在 2024 年 7 月 15 日正式发布的 OTA 6.0 升级中,为理想 AD MAX 版本全量推送了无图 NOA 功能,用户可在全国范围内可导航的城市道路上使用,享受自动切换车道、自主超车变道、绕行障碍物等智能驾驶任务。智己汽车也在 2024 年实现了 IM AD 无图城市 NOA 的全国全系开通,覆盖包括全新 L7、LS7(激光雷达版本)、LS7 Max、LS6 以及 L6 等车型,其 NOA 智驾功能覆盖范围广泛,支持施工道路、无车道线道路、乡村小路等丰富道路场景,目的是做到 “有导航就能开”。


 

而预先采集的高精地图除了实时性受限外,还有成本高昂问题。根据《智能网联汽车高精地图白皮书》,采用传统测绘车方式,分米级地图的测绘效率约为每天每车 500 公里,成本为每公里 10 元左右,而厘米级地图的测绘效率约为每天每车 100 公里,成本则达每公里 1000 元。据估计,把全国道路数据采集下来需要 200 亿左右。


 

高昂的采集成本必然意味着高使用成本。对于车企等客户,其价格根据地图覆盖范围、更新频率等因素确定。如果是面向自动驾驶汽车的高精地图服务,由于对地图的精度、实时性和完整性要求高,使用成本相对较高。而对于一些对精度要求较低的智能交通管理场景,使用成本可能会有所降低。但总体来说,高精地图的使用成本仍然是一笔不小的开支,这也是一些企业,特别是成本受限的企业,在考虑使用高精地图时需要权衡的因素之一。

三、新颖的中间表达:3D高斯泼溅(3D Gaussian Splatting) 


 

BEV,occ占据网络等等都比较为人熟知,在线高精地图也比较容易理解。但2023年才提出的高斯泼溅还比较小众,特此解释。   


 

3D高斯泼溅(3D Gaussian Splatting)是一种用于实时辐射场渲染的技术,它通过使用数以百万计的小型、半透明的椭球体(称为高斯泼溅点或Gaussian splats)来创建和渲染3D场景。与依赖多边形或复杂神经网络的传统方法不同,3DGS利用这些泼溅点表示场景,从而实现高效且高质量的新视角合成。

 

核心原理是从一组静态图像开始,通过运动结构恢复(SfM: Structure from Motion)方法生成稀疏点云,并将这些点初始化为3D高斯函数集合。由于从3D到2D投影存在模糊性,几何体可能会被错误放置,因此需要通过训练优化得到更精确的结果 。


 

高斯泼溅不仅能够提供照片级的真实感渲染效果,还能在保持竞争力的训练时间的同时,在1080p分辨率下实现高质量的实时(≥30 fps)新视图合成 [10]。此外,这种方法可以被认为是NeRF类模型的一种替代方案,适用于需要三维场景渲染和可视化的各种场景,如博物馆虚拟漫游、数字文旅以及产品3D展示等 。


 

以上学术化的描述换成直观语言,是说3d高斯泼溅实际是一种维度映射,泼溅Splatting的意思就是mapping,就是对应映射。


 

a、包括从二维空间到三维空间的泼溅,也就是把扁平的二维图像,映射到3d空间变为立体图像,比如拍了一张西安大雁塔的照片,3d高斯泼溅能生成大雁塔的三维立体模型。所以网络介绍3d'高斯泼溅老是提到文旅就在于此。在自动驾驶中,作用是把摄像头拍到的前方车辆恢复成3d目标。


 

图4 建筑物(国外法院)平面变立体,图片来自网络


 

b、包括从三维空间到三维空间的泼溅,也就是把不完美的雷达点云(激光雷达,超声波雷达等)重建为三维物体。   


 

点云的不完美性在于:

 

点云虽然是三维的数据集合,但其本身只是离散的点集,并不能直接表示物体或场景的完整几何结构。因此,尽管点云已经是3D的,但为了生成更精确、更完整的三维模型,仍需要进行3D重建。以下是具体原因:


 

数据不完整性:点云通常只捕捉到物体表面可见的部分,而非整个物体。这意味着,如果某个区域未被扫描到或者由于遮挡而丢失数据,则该部分在点云中将不存在。通过3D重建,可以估计并补充这些缺失的部分,从而得到更完整的形状和结构。

 

噪声与异常值处理:实际采集到的点云往往包含噪声和孤立点(outliers),这会干扰对真实几何形状的理解。三维重建算法能够处理这种噪声,生成更加平滑且准确的曲面 。


 

拓扑结构保持:一些高效的重建技术不仅加快了重建速度,还能够较好地维持原始点云数据中的拓扑关系,这对于某些应用非常重要,如医学成像或文化遗产保护等 。


 

便于存储和处理:原始点云可能非常庞大,直接使用可能会导致计算资源消耗过大。通过重建过程,可以减少数据量,使得后续的存储和处理变得更加容易 。


 

提高精度与语义信息提取:基于点云的建筑物或其他复杂结构的三维重建技术,在建模精度以及从点云中提取语义信息方面具有明显优势,成为高精度重建的主要手段之一。


 

实现自动化建模:对于特定应用场景,比如街景中的道路和建筑物分割,有效的点云分割与重建方法可以实现半自动化的建模流程,既简化操作又保证结果的可靠性。


 

所以虽然点云已经是三维形式存在(严格说是四维,除坐标外还包括反射强度),但由于其固有的局限性——如数据缺失、噪声干扰、庞大的数据量等问题,所以需要借助3D重建技术来生成更为精确、完整并且易于使用的三维模型。

 

图5 三维目标重建


 

c、还包括从3d到2d的投影泼溅。也就是把三维周遭环境压扁成2d地图。3d高斯泼溅技术的核心之一是将这些三维高斯分布投影到二维图像平面上。这个也是“泼溅”(splatting)这个词的直接来源,好比从三维空间往二维画布上泼颜料。3d高斯泼溅技术可以通过优化协方差矩阵Σ来获得代表辐射场的三维高斯函数,然后将其映射到图像平面上形成二维高斯分布 。  

 

图6 从3d往2d泼溅,图片来自网络

 

自动驾驶不同于无人机,目标高度并不很关键,目标平面位置才是关键,所以三维场景压缩为2d地图,可以用于生成BEV,也可以生成车厂自定义的2d地图,都是作为自动驾驶供决策规划的中间表达来用。

3D高斯泼溅(3D Gaussian Splatting)与高斯分布有什么关系呢?

 

简单说,就是3d模型的每一个点都是用高斯概率分布,也就是正态分布来表达的,只是指出点最可能的位置和属性信息,而不限死点的位置和属性信息,比如质地亮度颜色等等。


 

具体说,它利用了高斯函数的特性来描述和重建场景中的点云数据:

 

高斯分布作为点云表示的基础:在3D高斯泼溅中,每个点云中的点都被建模为一个三维的高斯分布。这意味着除了点的位置信息外,还包含了与该点相关的颜色、法线方向以及其他属性的信息,并通过协方差矩阵Σ来定义其形状和方向 。这很类似海森堡测不准原理中的电子云,只是描述电子可能位置的概率分布,而不是电子具体位置,因为测不准。


 

调整协方差矩阵改变形状和方向:通过调整协方差矩阵Σ,可以改变高斯分布在空间中的形状和方向,使得分布呈现出一定的倾斜或旋转,这种倾斜正是由于两个轴之间的线性关系造成的。这段描述,做过卡尔曼滤波的人应该特别熟悉,和Kalman filter里面协方差矩阵相乘是一个原理。   


 

高斯函数的卷积性质:高斯函数的一个重要性质是“高斯函数与高斯函数的卷积仍是高斯函数”,这一特性在3D高斯泼溅中被用来简化计算过程。当多个高斯分布相互作用时,结果仍然是一个高斯分布,这有助于提高渲染效率 。

四、总结 


 

在自动驾驶领域,中间表达是一个核心概念,表示把本车和所有的动态和静态障碍物都标注到同一张图中,再用这张图做车辆决策规划计算。BEV(鸟瞰图)、OCC(栅格占有法)、3D高斯泼溅(3D Gaussian Splatting)和在线高精地图等技术都可以扮演和正在扮演中间表达的角色。


 

中间表达构成了自动驾驶感知、决策和控制的核心部分。除了单一阶段的端到端自动驾驶不需要中间表达(也可以叫中间图)外,别的几乎所有自动驾驶技术都需要。

 

从某种程度上讲,种种中间表达技术都是对先验高精地图的某种替代,因为它们不仅已经包含先验高精地图所包含的信息,还包含其所没有的实时动态信息。

 

1. BEV (Bird's Eye View)


 

BEV 是一种将图像从传统的2D视角转换为自上而下的3D视角的技术。通过这种方式,可以更好地理解驾驶场景的空间布局,例如车辆、行人和其他障碍物的位置。

 

这种表示方法对于自动驾驶汽车来说至关重要,因为它能够提供更直观的全局环境信息,囊括360°周围信息,帮助车辆做出更好的路径规划和避障决策。


 

优势:BEV 提供了全局视野,有助于检测和跟踪远距离目标,同时减少了因摄像头角度限制导致的误判。


 

应用场景:用于3D物体检测、语义分割以及动态场景重建。


 

2. OCC (Occupancy Grid 或者occupied network)


 

OCC 方法通常被用来进行3D空间的占用预测,即判断某个特定区域(也就是小方格,或者像素点)是否被物体占据。这种方法对于自动驾驶尤为重要,因为它可以帮助系统快速识别道路上的可行驶区域和障碍物位置。


 

优势:OCC 能高效地利用空间稀疏性,减少计算资源消耗,并且支持实时更新。

应用场景:用于生成高精度的3D地图,辅助自动驾驶汽车完成路径规划和障碍物规避任务 。


 

3. 新颖的3D 高斯泼溅 (3D Gaussian Splatting)


 

3D高斯泼溅是一种先进的3D场景重建技术,包括2D到3D,3D到3D,3D到2D几种重建场景。它通过将点云数据建模为一组具有几何和辐射属性的高斯分布来实现高效的场景表示。这种方法特别适用于处理复杂的动态场景,如自动驾驶中的交通流变化。   

 

优势:相比传统的方法,3D高斯泼溅能够以较低的计算成本实现高质量的实时渲染和场景重建。


 

应用场景:用于自动驾驶中的静态背景和动态物体的重建,增强对复杂环境的理解能力。


 

4. 在线高精地图


 

在线高精地图并不是指可以通过网络实时更新的地图服务,多数情况下是指综合本车所有传感器实时建图。


 

它为自动驾驶提供了动态的道路信息,包括但不限于车道线、交通信号灯状态、道路施工情况等。


 

优势:相比先验的离线高精地图,在线版本可以更快地反映实际路况的变化,提高了系统的适应性和安全性。


 

应用场景:用于超视距感知、全局路线规划以及局部路径导航,确保自动驾驶汽车即使在恶劣天气条件下也能保持良好的性能 。

 

这些持续发展的技术最终目的都指向无图NOA,也就是不依赖预先准备的高精地图,而实现无人自动驾驶。

评论
登录后发表评论
最新评论