【CVPR 2024】北大&长安汽车提出多模态SOTA感知算法RCBEVDet
一、论文导读
作者提出了相机和毫米波雷达多模态融合的3D目标检测算法RCBEVDet,在nuScenes和VoD数据集的3D目标检测任务上实现了SOTA的表现性能,超过了现有的camera-only以及radar-camera的3D目标检测算法,RCBEVDet和其他算法模型的速度和精度对比如下
二、网络模型结构&技术细节梳理
下图展示了RCBEVDet算法模型的整体网络结构
通过上图可以看出,RCBEVDet中包括两个核心模块,分别是RadarBEVNet编码得到雷达BEV特征。然后利用Cross-attention Multi-layer Fusion融合图像和雷达的BEV特征,最后接3D检测头输出最终的感知结果。
核心创新点一:RadarBEVNet
RadarBEVNet主要由Dual-stream radar backbone、RCS-aware Scattering以及Radar BEV Encoder三部分构成。
- Dual-stream radar backbone模块:包括point-based和transformer-based的主干网络用于实现不同细粒度的特征提取,网络结构如下
其中,point-based的主干网络类似PointNet的网络结构,采用多个块级联的形式,每个块都包括一个MLP层和MaxPool层用于实现局部点云特征的提取过程。transformer-based主干网络采用多个级联的注意力模块来实现全局信息的提取过程,这里作者考虑到由于自动驾驶场景很大,标准的自注意力计算很难进行优化,所以提出了Distance-modulated self-attention mechanism来加速模型的收敛过程。
- RCS-aware BEV Encoder模块:考虑到雷达点云数据是非常稀疏的,导致将当前的点云投影到BEV空间中绝大多数的特征空间位置都是空白的,弱化了模型的检测性能。对于毫米波雷达而言,雷达截面 (RCS) 可以用来衡量雷达探测到的物体,一般来说,物体越大,雷达波反射越强,因此 RCS 测量值越大。因此,本文中作者利用RCS值来增强目标的信息值,做法示意图如下
创新点二:Cross-Attention Multi-layer Fusion Module
Cross-Attention Multi-layer Fusion Module主要采用交叉注意力机制实现不同模态间特征信息的融合
- Multi-modal Feature Alignment with Cross-Attention:作者不直接采用基于元素相加或者通道合并的方式得到雷达和图像BEV特征是考虑到了雷达点云经常受到方位角误差的影响。因此,雷达传感器可能会获取物体边界之外的雷达点,从而造成图像BEV特征和雷达BEV特征不对齐的问题。这里作者是采用了可变性注意力机制实现两个不同模态的融合过程,融合的可视化过程如下图所示
三、实验结果
RCBEVDet在nuScenes & VoD数据集上的实验结果对比汇总
#牛客创作赏金赛##自动驾驶##论文##算法##互联网#记录一位智驾感知算法工程师的日常读论文笔记(不定期更新~)