【CVPR 2024】北大&长安汽车提出多模态SOTA感知算法RCBEVDet

一、论文导读

作者提出了相机和毫米波雷达多模态融合的3D目标检测算法RCBEVDet,在nuScenes和VoD数据集的3D目标检测任务上实现了SOTA的表现性能,超过了现有的camera-only以及radar-camera的3D目标检测算法,RCBEVDet和其他算法模型的速度和精度对比如下

二、网络模型结构&技术细节梳理

下图展示了RCBEVDet算法模型的整体网络结构

通过上图可以看出,RCBEVDet中包括两个核心模块,分别是RadarBEVNet编码得到雷达BEV特征。然后利用Cross-attention Multi-layer Fusion融合图像和雷达的BEV特征,最后接3D检测头输出最终的感知结果。

核心创新点一:RadarBEVNet

RadarBEVNet主要由Dual-stream radar backboneRCS-aware Scattering以及Radar BEV Encoder三部分构成。

  • Dual-stream radar backbone模块:包括point-based和transformer-based的主干网络用于实现不同细粒度的特征提取,网络结构如下

其中,point-based的主干网络类似PointNet的网络结构,采用多个块级联的形式,每个块都包括一个MLP层和MaxPool层用于实现局部点云特征的提取过程。transformer-based主干网络采用多个级联的注意力模块来实现全局信息的提取过程,这里作者考虑到由于自动驾驶场景很大,标准的自注意力计算很难进行优化,所以提出了Distance-modulated self-attention mechanism来加速模型的收敛过程。

  • RCS-aware BEV Encoder模块:考虑到雷达点云数据是非常稀疏的,导致将当前的点云投影到BEV空间中绝大多数的特征空间位置都是空白的,弱化了模型的检测性能。对于毫米波雷达而言,雷达截面 (RCS) 可以用来衡量雷达探测到的物体,一般来说,物体越大,雷达波反射越强,因此 RCS 测量值越大。因此,本文中作者利用RCS值来增强目标的信息值,做法示意图如下

创新点二:Cross-Attention Multi-layer Fusion Module

Cross-Attention Multi-layer Fusion Module主要采用交叉注意力机制实现不同模态间特征信息的融合

  • Multi-modal Feature Alignment with Cross-Attention:作者不直接采用基于元素相加或者通道合并的方式得到雷达和图像BEV特征是考虑到了雷达点云经常受到方位角误差的影响。因此,雷达传感器可能会获取物体边界之外的雷达点,从而造成图像BEV特征和雷达BEV特征不对齐的问题。这里作者是采用了可变性注意力机制实现两个不同模态的融合过程,融合的可视化过程如下图所示

三、实验结果

RCBEVDet在nuScenes & VoD数据集上的实验结果对比汇总

#牛客创作赏金赛##自动驾驶##论文##算法##互联网#
智驾感知论文集合 文章被收录于专栏

记录一位智驾感知算法工程师的日常读论文笔记(不定期更新~)

全部评论

相关推荐

不愿透露姓名的神秘牛友
12-11 10:34
字节跳动 前端 3.2x15 + 签字费7W 大专
点赞 评论 收藏
分享
评论
1
收藏
分享
牛客网
牛客企业服务