摘要
基于BEV(bird’s eye view)多传感器融合的自动驾驶感知算法近年来取得重大进展,持续促进自动驾驶的发展。在多传感器融合感知算法研究中,多视角图像向BEV视角的转换和多模态特征融合一直是BEV感知算法的重点和难点。笔者提出MSEPE-CRN(multi-scale feature fusion and edge and point enhancement-camera radar net),一种用于3D目标检测的相机与毫米波雷达融合感知算法,利用边缘特征和点云提高深度预测的精度,实现多视角图像向BEV特征的精确转换。同时,引入多尺度可变形大核注意力机制进行模态融合,解决因不同传感器特征差异过大导致的错位。在nuScenes开源数据集上的实验结果表明,与基准网络相比,mAP提升2.17%、NDS提升1.93%、mATE提升2.58%、mAOE提升8.08%、mAVE提升2.13%,该算法可有效提高车辆对路面上运动障碍物的感知能力,具有实用价值。
实现可靠的3D感知是自动驾驶的关键,是车辆在复杂多变环境中正常行驶的前提。当前,自动驾驶领域的3D感知算法主要依赖各种传感器获取环境信息,结合深度学习技术实现目标识别与定位,完成3D目标检测、语义分割和目标跟踪等任务。相机和毫米波雷达作为2种低成本且异构的传感器,受到越来越多关注,二者相结合能很好适应各种复杂的环境,实现车辆信息的收集。如何充分利用多模态信息的互补特性并以统一方式描述特征至关重要,将多模态特征映射到BEV(bird’s eye view)是一种高效简洁的方式。
对于激光雷达和毫米波雷达,在BEV中表征特征是很自然的,因为他们本身就包含空间位置信息,但是对于相机而言,这是一个挑战。相机捕捉的二维图像缺乏直接的深度信息,虽然可以借助相机内外参数进行转换,但这种转换往往是不准确的。LSS(lift splat shoot
充分结合图像特点和雷达点云特点进行精确的深度预测是值得探究的方向。图像可以提供丰富的语义信息,以及关键的几何形状、结构和位置信息,这对于深度预测至关重要,从图像中获取的物体边界特征有助于确定物体的位置轮廓和深度变化。另外,雷达点云深度虽然稀疏,但能反映全局几何结构信息,对基于图像的边缘特征是很好的补充,同时它还具有可靠准确的深度信息。结合二者进行深度预测,有助于了解物体的相对位置和空间关系,这对后续检测和定位至关重要。因此,笔者提出边缘和点云增强的深度预测模块(edge and point enhance module,EPEM),通过增强图像中的物体边界特
多模态BEV特征的融合也是BEV感知算法的重点。CRN采用了Deformable cross attention进行2种模态的融合,希望能够自适应对齐2种模态特征。这当然是一种很好的方法,但是缺少了重要的多尺度机制。毫米波雷达点云特征和图像特征的差异性较大,图像特征包含物体几乎完整的几何结构信息、纹理和颜色细节,雷达点云特征则主要反映物体的边缘和表面特征(如汽车的边缘),单一尺度下的多模态交互融合往往在处理极端形状或剧烈尺度变化时不够鲁棒。虽然CRN采用了带有FPN(feature pyramid networks)机制的backbone试图引进多尺度机制,但这种多尺度只存在单一模态内部,对多模态的融合可能不会产生效果。
针对这个问题,笔者提出多尺度可变形大核注意力特征融合模块(multi-scale deformable large kernel attention fusion module,MSD-LKA),希望通过多尺度机制和可变形大核注意力机制更好地对齐和融合相机和雷达特征,避免因模态差异过大而导致的融合错位。
自从LSS提出之后,基于深度预测的视图转换方法受到很多关注,通过生成显式的深度分布和上下文信息进行2D图像特征到BEV特征的转换。BEVDept
MSEPE-CRN通过提出的EPEM Module对深度估计方法进行改进,该模块通过增强图像中的物体边界特征,利用雷达点云的深度信息,帮助深度预测网络获得更准确和可靠的深度估计。
BEV下可以对交通场景实现精准而全面的描述,这对大部分下游任务是适用的。同时,它的统一视角为各种不同传感器的融合提供便捷方式。BEV下的多模态融合方法有3种:一种是利用深度信息直接从2D图像构建BEV特征。如UVR
研究采用基于多模态BEV特征的融合方法,实施MSD-LKA。MSD-LKA模块通过多尺度机制和大核注意力机制自适应对齐图像特征和雷达特征,在全局范围内实现准确的多模态融合,避免因模态差异显著导致特征错位。
MSEPE-CRN网络结构如

图1 MSEPE-CRN的整体网络结构
Fig.1 Overall network structure of MSEPE-CRN
在边缘和点云增强的深度预测模块(EPEM)中,多视角图像特征
, | (1) |

图2 边缘和点云增强的深度预测网络
Fig.2 Edge and point enhance depth net
再经过一系列的卷积操作和残差连接整合特征,最终得到多视角图像特征。考虑到基于雷达的深度信息是可靠的,所以直接采用交叉注意力融合2种模态,在空间中建立对应关系,利用雷达特征进一步增强多视角图像的边缘特征信息
。 | (2) |
另外,考虑到相机参数对深度预测而言是有益的,提供了将图像坐标转换为相机坐标的几何信息,帮助从二维图像中恢复三维深度,通过图像尺度与实际世界尺度的转换,校正视差图计算深度,消除图像畸变的影响。因此,使用KA
(3) |
。 | (4) |
参考当前的基于大核注意力的研
对于得到的多模态BEV特征,他们的权重不应该是对等的,所以使用FACM
, | (5) |
式中: 代表分组编号;N为组数。

图3 多尺度可变形大核注意力融合模块
Fig. 3 Multi-scale deformable large kernel attention fusion module
为了验证算法效果,在nuScenes上进行实验,nuScenes提供了高质量的传感器数据,包括32线激光雷达、毫米波雷达、8个高分辨率摄像头、IMU和GPS/IMU数据。数据集包含1 000个场景,每场景约40帧,覆盖新加坡和波士顿的各种驾驶环境和条件,标注信息包括目标检测、目标跟踪和地图数据。使用官方指标:平均精度(mean average precision,mAP)和nuScenes综合检测分数(nuScenes detection score,NDS)进行评估。nuScenes的mAP是利用地平面上的中心距离而不是三维交联(intersection over union,IoU)来计算,匹配预测结果和地面真实值。nuScenes度量还包含5种真正度量(true positive,TP),包括ATE(average translation error)、ASE(average scale error)、AOE(average orientation error)、AVE(average velocity error)和AAE(average attribute error),分别用于度量平移、尺度、方向、速度和属性误差。NDS的定义如下,能够综合评价模型的各项指标
。 | (6) |
图像backbone设置为ResNet50,输入分辨率为256×704,默认情况下,使用1张RTX4090 GPU,训练轮数设置24 epochs,batch size设置为4,学习率为1×1
主要针对3D检测任务,在nuScenes数据集上与其他模型进行比较。主要的实验结果如
算法 | Input | NDS↑ | mAP↑ | mATE↓ | mASE↓ | mAOE↓ | mAVE↓ | mAAE↓ |
---|---|---|---|---|---|---|---|---|
BEVDept | C | 0.475 0 | 0.351 0 | 0.639 0 | 0.267 0 | 0.479 0 | 0.428 0 | 0.198 0 |
RCBEV4 | C+R | 0.497 0 | 0.381 0 | 0.526 0 | 0.272 0 | 0.445 0 | 0.465 0 | 0.185 0 |
CRAF | C+R | 0.517 0 | 0.411 0 | 0.494 0 | 0.276 0 | 0.454 0 | 0.486 0 | 0.176 0 |
X3k | C+R | 0.538 0 | 0.423 0 | — | — | — | — | — |
SparseBE | C | 0.558 0 | 0.448 0 | 0.581 0 | 0.271 0 | 0.373 0 | 0.247 0 | 0.190 0 |
CR | C+R | 0.558 7 | 0.469 2 | 0.515 5 | 0.279 8 | 0.504 0 | 0.282 0 | 0.177 3 |
MSEPE-CRN | C+R | 0.569 5 | 0.479 4 | 0.502 2 | 0.277 2 | 0.463 3 | 0.276 0 | 0.184 0 |
注: 加粗数据表示在当前同类指标中最优。
mATE、mASE、mAOE、mAVE、mAAE单项指标与其他模型相比并没有取得最优结果,主要是因为本模型与其他模型的结构和侧重点差异导致。本模型主要考虑图像模态和雷达点云模态的特征差异,无论是特征转换还是特征融合都针对这种差异进行优化,整体实现信息的互补融合,得到准确对齐和充分融合的特征,在此基础上预测,使模型具有更可靠的判断依据,能够兼顾目标位置预测、速度预测、方向预测等指标的准确性,虽然单项不是最优,但是整体性能更强,这在综合性指标NDS的提升上可以体现,也与改进的出发点相符。而其他模型例如SparseBEV,一种基于查询(Query)的检测模型,每个查询包含:3D坐标、尺寸、旋转角、速度等信息,通过不同时刻的车辆自身位置实现多帧查询对齐,这种时间融合策略是对单项指标的极致优化,虽然能有效降低mAOE(方向)和mAVE(速度)的误差,但在综合性指标NDS上与研究的算法有一定差距。
为深入研究不同模块的影响,在nuScenes数据集上进行消融实验。实验结果显示,EPEM模块的引入带来了mAP 2.05%的提升,这表明该模块通过图像中边缘信息和雷达信息的融合,有效提升目标定位及物体边界划分。同时,mATE降低了1.82%表明估计的目标位置与真实目标位置之间的误差较小,EPEM有助于模型定位能力的提升。虽然综合性指标NDS仅提升0.70%,也显示该模块对整体性能有积极影响。
EPEM | MSD-LKA | NDS↑ | mAP↑ | mATE↓ | mASE↓ | mAOE↓ | mAVE↓ | mAAE↓ |
---|---|---|---|---|---|---|---|---|
0.558 7 | 0.469 2 | 0.515 5 | 0.279 8 | 0.504 0 | 0.282 0 | 0.177 3 | ||
| 0.562 6 | 0.478 8 | 0.506 1 | 0.274 9 | 0.515 7 | 0.284 5 | 0.187 2 | |
| 0.568 2 | 0.477 9 | 0.495 7 | 0.275 1 | 0.474 2 | 0.275 8 | 0.187 4 | |
| | 0.569 5 | 0.479 4 | 0.502 2 | 0.277 2 | 0.463 3 | 0.276 0 | 0.184 0 |
引入MSD-LKA模块的实验结果显示,mAP提升了1.85%,反映MSD-LKA的多尺度机制和可变形卷积能较好适应物体形状并精确定位物体位置。NDS提升了1.70%,这表明模型整体的鲁棒性有所提升,能适应复杂情况。更为重要的是,mAOE降低了5.91%,这表明MSD-LKA模块能减少方向估计误差,提高方向预测的精确度,这得益于大核注意力机制,通过较大的感受野和长距离依赖建模能力,整合全局信息和局部信息,提升对目标和整体关系的理解,使方向估计更准确。
在CRN的基础上,笔者提出一种新的相机和毫米波雷达融合的3D目标检测网络MSEPE-CRN。针对原文的深度网络没有充分利用多模态特征信息,导致目标位置预测精度不足,笔者提出一种结合点云特征和图像边缘特征的深度预测模块,通过更精确的深度分布,使多视角图像特征向BEV特征转化更准确,有效提升模型对物体边界和位置的把握度。针对多模态BEV特征融合过程中缺乏多尺度特征融合机制,提出基于多尺度可变形大核注意力的多模态融合模块,通过多尺度分组大核卷积,充分对齐特征差异性较大的图像和雷达点云信息,使其在复杂的各类场景中具有较好鲁棒性。相关实验结果表明,研究提出的方法能有效提升算法的精度和适应性。另外,作为一种BEV检测算法,同样适用于其他下游任务,可以设计不同的检测头实现分割、追踪等功能。
参考文献
Philion J, Fidler S. Lift, splat, shoot: encoding images from arbitrary camera rigs by implicitly unprojecting to 3d[C]//16th European Conference. Glasgow, UK: Springer International Publishing, 2020: 194-210. [百度学术]
Kim Y, Shin J, Kim S, et al. Crn: camera radar net for accurate, robust, efficient 3d perception[C]//IEEE/CVF International Conference on Computer Vision. Piscataway:IEEE Computer Society, 2023: 17615-17626. [百度学术]
Zhu Z, He X, Qi G, et al. Brain tumor segmentation based on the fusion of deep semantics and edge information in multimodal MRI[J]. Information Fusion, 2023, 91: 376-387. [百度学术]
Li Y, Ge Z, Yu G, et al. Bevdepth: Acquisition of reliable depth for multi-view 3d object detection[C]//AAAI conference on Artificial Intelligence. Menlo Park, CA: AAAI, 2023, 37(2): 1477-1485. [百度学术]
Hu H, Wang F, Su J, et al. Ea-lss: Edge-aware lift-splat-shot framework for 3d bev object detection [EB/OL]. (2023-08-30)[2024-08-10]. https://arxiv.org/abs/2303.17895. [百度学术]
Bae G, Budvytis I, Cipolla R. Multi-view depth estimation by fusing single-view depth probability with multi-view geometry[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Computer Society, 2022: 2842-2851. [百度学术]
Li Y, Chen Y, Qi X, et al. Unifying voxel-based representation with transformer for 3d object detection[C]//Advances in Neural Information Processing Systems. Red Hook, NY: Curran Associates, 2022: 18442-18455. [百度学术]
Liang T, Xie H, Yu K, et al. Bevfusion: a simple and robust lidar-camera fusion framework[C]//Advances in Neural Information Processing Systems. Red Hook, NY: Curran Associates, 2022: 10421-10434. [百度学术]
Yan J, Liu Y, Sun J, et al. Cross modal transformer: towards fast and robust 3d object detection[C]//IEEE/CVF International Conference on Computer Vision. Piscataway:IEEE Computer Society, 2023: 18268-18278. [百度学术]
Ma Y, Wang T, Bai X, et al. Vision-centric bev perception: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 46(12): 10978-10997. [百度学术]
Blealtan. Efficient-kan: kolmogorov-arnold networks implementation[EB/OL]. (2024-05-02)[2024-08-10]. https://github.com/Blealtan/efficient-kan. [百度学术]
Liu Z, Wang Y, Vaidya S, et al. Kan: Kolmogorov-arnold networks[EB/OL].(2024-06-16)[2024-08-10]. https://arxiv.org/abs/2404.19756. [百度学术]
Wang Y, Li Y, Wang G, et al. Multi-scale attention network for single image super-resolution[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Computer Society, 2024: 5950-5960. [百度学术]
Azad R, Niggemeier L, Hüttemann M, et al. Beyond self-attention: deformable large kernel attention for medical image segmenta-tion[C]//IEEE/CVF winter conference on applications of computer vision. Piscataway:IEEE Computer Society, 2024: 1287-1297. [百度学术]
Jin X, Guo C, He Z, et al. FCMNet: frequency-aware cross-modality attention networks for RGB-D salient object detection[J]. Neurocomputing, 2022, 491: 414-425. [百度学术]
Zhou T, Chen J, Shi Y, et al. Bridging the view disparity between radar and camera features for multi-modal fusion 3d object detection[J]. IEEE Transactions on Intelligent Vehicles, 2023, 8(2): 1523-1535. [百度学术]
Kim Y, Kim S, Choi J W, et al. craft: camera-radar 3d object detection with spatio-contextual fusion transformer[C]//AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI, 2023, 37(1): 1160-1168. [百度学术]
Klingner M, Borse S, Kumar V R, et al. X3kd: knowledge distillation across modalities, tasks and stages for multi-camera 3d object detection[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Computer Society, 2023: 13343-13353. [百度学术]
Liu H, Teng Y, Lu T, et al. Sparsebev: high-performance sparse 3d object detection from multi-camera videos[C]//IEEE/CVF International Conference on Computer Vision. Piscataway:IEEE Computer Society, 2023: 18580-18590. [百度学术]