【CVPR 2024】首个基于Fusion-to-Fusion的跨模态蒸馏感知算法框架CRKD

一、论文导读

在本文中，作者利用了车载不同传感器之间信息互补的优势，提出了首个基于Fusion-to-Fusion的跨模态蒸馏感知算法框架，超越了现有的诸多跨模态蒸馏感知算法，在nuScenes数据集上取得了优异的感知性能

二、论文研究背景

3D目标检测在自动驾驶感知模块当中扮演着非常重要的一环。在诸多传感器中，激光雷达、摄像头和毫米波雷达是实现道路上自动驾驶的最常见配置选择。将不同类型的传感器信息进行融合已经被证实可以显著提升感知算法模型的表现性能。Lidar-Camera（LC）已被广泛证明是当前3D目标中性能最佳的传感器配置组合。相比于激光雷达，毫米波雷达能够适应各种天气和光照条件，具有汽车级设计和低成本的特点。但相比于激光雷达，毫米波雷达采集的数据稀疏且噪声大，导致基于Radar-Camera（RC）的多模态感知算法性能依旧与LC模型存在一定的差距

目前绝大多数的跨模态蒸馏算法都是采用单一模态的算法作为教师模型，没有充分挖掘多模态模型作为教师模型的潜力。基于此，本文提出了首个教师和学生模型均采用多模态感知算法的蒸馏框架，并且超过了现有众多跨膜态蒸馏算法模型

三、网络模型结构&技术细节梳理

下图展示了CRKD跨模态蒸馏算法模型的整体网络架构图，其中教师模型和学生模型分别采用BEVFusion作为基线模型。整体而言，CRKD包括四种类型的子模块，分别如下

Cross-Stage Radar Distillation模块：使Radar Encoder模块可以学习到更准确的场景级物体分布
Mask-Scaling Feature Distillation模块：专门用于实现前景目标的特征蒸馏而设计，包括单模态的Camera-Level以及多模态的Fusion-Level
Relation Distillation模块：用于保持场景级几何中的关系一致性
Response Distillation模块：设计具有指定类别的损失权重，实现学生模型具备更强的捕捉动态目标的能力

核心创新点一：Cross-Stage Radar Distillation模块

虽然毫米波雷达和激光雷达的测量结果都是点云形式的数据，但它们背后的物理含义略有不同。毫米波雷达点要稀疏很多，可以解释为具有速度测量的物体级点列，而激光雷达点云则更密集，可以捕获几何级信息。因此，本文提出了Cross-Stage Radar Distillation，设计了一条毫米波雷达特征图和LC教师模型预测的场景级Heatmap特征图之间的蒸馏路径，对应的蒸馏监督方式如下

此外，考虑到毫米波雷达在距离和方位角测量中存在噪声，作者提出了利用几组级联的卷积充当校准模块来补偿噪声。

核心创新点二：Mask-Scaling Feature Distillation模块

在之前的很多工作中都有提到，在BEV特征图中由于前景和背景之间存在明显的不平衡，老师和学生模型之间的直接特征蒸馏可能无法在3D目标检测任务中有效发挥作用。此外，更多的研究工作表明设计更好的前景边界蒸馏方式也可以提升最终的学生模型感知性能。

最终，考虑到动态目标的移动可能会导致目标特征投影到BEV空间存在错位的问题，文章中采用了适当扩大前景区域Mask的方式来实现前景区域的特征蒸馏过程，相应的蒸馏监督方式如下

核心创新点三：Relation Distillation模块

由于前面的CSRD模块以及MSFD模块已经完成了特征级别的蒸馏，在这一部分主要是完成学生和教师模型之间保持场景层面上的相似几何关系。其中场景级的几何关系度量采用计算公式(5)，蒸馏的监督方式采用计算公式(6)

此外，为了提取不同尺度的场景级关系信息，文章中还采用了下采样操作。然后将这些多尺度的特征图来计算RelD 损失，并取平均值作为最终的损失项。

核心创新点四：Response Distillation模块

在这一部分中，教师模型的预测结果作为Soft Label，真值作为Hard Label，二者共同监督学生模型的学习过程。由于毫米波雷达的多普勒效应具有直接测量速度的独特优势，我们在该模块中为动态类别设置了更大的权重，以便为动态对象提供更高的优先级，从而充分利用CR学生模型的优势。公式(7)对应类别监督损失，公式(8)代表回归监督损失