【ICCV 2023】北航出品！基于语义感知的纯视觉3D目标检测SOTA算法方案SA-BEV

一、论文导读

在本文中，作者提出了一种充分利用图像语义信息生成BEV空间特征的感知算法SA-BEV，缓解了BEV空间中大量背景信息淹没前景目标特征的问题，超越了当时现有的3D目标检测算法，在nuScenes数据上实现了SOTA。

二、论文研究背景

目前，由于纯视觉的BEV感知算法部署成本低得到了来自工业界和学术界的广泛关注，同时以LSS分支的BEV生成范式部署更加友好得到了工业界的广泛采纳和使用。该范式的核心思路是根据图像特征预测离散深度信息生成图像特征点云，然后将这些图像特征点云投影到BEV空间。但是LSS的BEV生成范式没有充分利用图像特征的语义信息，并且会注入大量淹没物体特征的背景信息。

考虑到上述问题，SA-BEV在生成BEV特征的过程中，对无关背景信息进行过滤，从而有效提升了感知算法的检测性能。下图展示了背景信息过滤前后的可视化结果图（上侧未过滤，下侧已过滤）。

此外，作者借鉴了基于激光雷达目标检测算法中的数据增强策略和多任务学习中具体任务和跨任务学习的特点进行了相关改进，最终实现了SA-BEV感知算法模型，取得了当时nuScenes数据集的SOTA。

三、网络模型结构&技术细节梳理

下图展示了SA-BEV算法模型的整体网络结构

通过上面的网络结构图可以看出，SA-BEV算法模型主要由Semantic-Aware BEV Pooling、BEV-Paste Data Augmentation以及Multi-Scale Cross-Task Head三个子模块构成。

核心创新点一：Semantic-Aware BEV Pooling模块

考虑到前景目标的语义特征投影到BEV空间中约占总特征数的2%，大量背景信息会淹没目标特征，降低模型的检测精度。SA-BEV算法模型采用了Semantic-Aware BEV Pooling模块来缓解这一过程，其中Semantic-Aware BEV Pooling模块的网络结构如下图所示。

具体而言，Semantic-Aware BEV Pooling模块包含两个背景信息抑制操作，分别是

低语义特征抑制：如果基于特征图预测出来的前景语义得分低于阈值，那么该部分的特征就不会参与到最终BEV特征的构建过程中
低深度概率抑制：如果某个特征点对应的相机射线上其深度概率分布低于某个阈值，低于阈值的部分也不会参与到最终的BEV特征构建过程

由于将低置信度的深度概率以及前景特征都过滤掉了，最终生成的BEV语义特征称之为基于语义感知的BEV特征图。

核心创新点二：BEV-Paste Data Augmentation策略

GT-Paste 是基于LiDAR的3D目标检测器中常用的数据增强策略。然而，将他们应用于基于视觉的算法当中存在着如下的一些问题

通过对图像上的边界框对目标进行采样无法像点云数据那样获得其纯数据
将对象粘贴到另一幅图像可能会错误地遮挡原始对象并导致数据丢失
不同帧的光照变化也使粘贴的目标看起来不自然

基于上述提到的相关问题，SA-BEV提出了BEV-Paste数据增强策略，如下所示。

具体而言，从图像特征转化而来的语义BEV特征近似地代表了帧内所有物体的信息。这使得在训练阶段添加任意两帧的BEV特征等同于将两帧中包含的物体聚合到一帧中。所以，在实际操作的过程中，SA-BEV选择的是同一个Batch内的两帧，从而确保二者满足相同的分布。

核心创新点三：Multi-Scale Cross-Task Head模块

在以往LSS范式的BEV特征生成过程中，离散深度信息模块同时充当了深度预测和语义特征预测的角色，而这一过程属于多任务学习的范畴。相关的研究表明，任务指定信息和跨任务信息对于获得多任务的全局最优解都很重要。如果深度分布和语义分割由同一个网络分支预测，网络只从图像特征中提取跨任务信息，无法在每个任务上都达到最优。

因此，SA-BEV提出了Multi-Scale Cross-Task Head模块，如下图所示。