【ECCV 2024】智加科技提出统一双向BEV构建的视觉SOTA算法DualBEV
一、论文导读
作者提出了一种同时考虑了双向BEV特征构建流程的视觉3D目标检测算法DualBEV,在nuScenes数据集上实现了55.2%的mAP和63.4%的NDS的SOTA感知结果,超过了现有的单向BEV构建算法BEVDepth、BEVFormer以及双向BEV构建算法FB-BEV,DualBEV的核心思路如下
二、网络模型结构&技术细节梳理
通过整体网络框架图可以看到,DualBEV首先利用图像主干网络提取环视图像的特征,然后利用SceneNet网络预测像素的深度概率以及实例掩码区域,将二者喂入到Prob-LSS分支和HeightTrans分支得到LSS特征和HT特征。然后利用提出的Dual Feature Fusion模块得到融合后的特征,进而计算BEV概率分布得到最终的BEV空间特征,再利用3D检测头输出最终的感知结果。
核心创新点一:HeightTrans分支
HeightTrans分支与以往采用3D->2D采样构建BEV特征的思路类似,都是先在BEV空间中显示的生成3D网格点,然后根据坐标投影关系汇聚2D图像特征信息构建最终的BEV特征。但是与通常采用Transformer的方式来构建BEV特征依旧存在一些不同之处。
- 对BEV的高度方向进行优化:取消Deformable Attention的偏移点采样+高度方向上的均匀3D点设置,改为多分辨率的采样策略;在[-2, 2m]范围内分辨率为0.5m,防止遗漏小尺度的目标特征,其他范围内的分辨率是1m;
- 对图像特征的采样进行优化:论文作者考虑到3D映射到2D图像上的点有可能会落在背景区域,所采样的特征会干扰模型的检测过程。将前文提到的SceneNet预测的实例Mask作用于特征提取的过程中,用于缓解这类问题;
- 对3D点的投影过程进行优化:论文作者为了区分多个BEV网格点会对应同一个2D图像位置的情况,将前文提到的SceneNet预测的深度概率用于评估这些映射对应情况;
- 对BEV特征的生成进行优化:作者为了解决空白BEV网格无法提供任何有用检测信息的问题,在生成BEV特征的过程中引入了BEV概率,此外,作者还引入了BEVPoolv2和查找表来加速BEV特征的构建过程。
核心创新点二:Prob-LSS分支
作者认为深度估计网络对于离散深度预测的固有不确定性会导致BEV空间中存在无关的特征信息,为了解决这一问题,作者在2D->3D的特征构建过程中同样引入了BEV概率。
核心创新点三:Dual Feature Fusion
在通过HeightTrans分支和Prob-LSS分支得到两种不同方式构建的BEV特征之后,作者引入了包含通道注意力和空间注意力的Dual Feature Fusion模块来集成这两种特征,其中通道注意力用于预测两类特征的通道权重,空间注意力用于预测BEV空间概率,Dual Feature Fusion模块的具体网络结构如下。
- 通道注意力:作者利用Dual Feature Fusion中的CAF模块来获取通道方向上的权重。该融合阶段旨在利用学习通道级的权重从两个特征中实现更好的特征融合。
- 空间注意力:作者利用Dual Feature Fusion中的SAE-ProbNet模块来得到BEV空间概率,用于缓解空白BEV网格对于模型性能的影响。
三、实验结果
DualBEV在nuScenes数据集上的不同算法实验结果对比和可视化结果汇总
#牛客创作赏金赛##论文##算法##互联网##自动驾驶#记录一位智驾感知算法工程师的日常读论文笔记(不定期更新~)