【NIPS 2024】基于目标运动信息的相机-雷达多模态感知SOTA方案CRT-Fusion

一、论文导读

在本文中,作者提出了一种将多帧时序信息加入到Radar-Camera多模态的感知算法CRT-Fusion,在利用多模态特征互补优势之外,充分利用多帧时序信息,超越现有的Radar-Camera多模态融合方法,在nuScenes上实现了SOTA

二、论文研究背景

目前,来自工业界和学术界的大量研究工作表明,多传感器融合策略可以提升感知算法模型的鲁棒性。此外,通过向感知算法模型中加入额外的时序帧信息,可以缓解单帧数据中存在的遮挡、传感器失效以及其他因素造成的性能退化问题。

目前,已经有一些研究工作将时序信息加入到Radar-Camera融合的框架中,这类融合框架通过将Radar和Camera的特征统一到BEV平面实现多模态特征的融合。然而,这些方法在有效捕捉物体运动方面存在局限性,因为没有明确考虑移动物体的动态特性直接将来自不同时间间隔的数据特征进行合并导致动态物体的性能准确性受到影响。(下图a所示)

基于上述问题,本文首先估计每个时刻的BEV特征图中动态物体的位置及速度信息。然后,利用这些预测的信息来纠正每个特征图中动态物体的运动,并以时间一致的方式将它们融合在一起。(上图b所示)

三、网络模型结构&技术细节梳理

下图展示了CRT-Fusion算法模型的整体网络框架图。整体来看,CRT-Fusion的创新点主要包括三个部分,分别是

  • MVF(Multi-View Fusion):将来自不同时刻的Camera和Radar的特征信息进行融合得到融合的BEV特征
  • MFE(Motion Feature Estimator):从融合的BEV特征图中预测动态物体的位置和速度信息
  • MGTF(Motion Guided Temporal Fusion):利用得到的动态物体预测信息生成最终当前时刻的融合BEV特征

核心创新点一:Multi-View Fusion模块

在Multi-View Fusion模块当中,包括Perspective View FusionBEV Fusion两部分,用于实现更加准确的视觉BEV特征的生成。

  • Perspective View Fusion:在这一部分当中,具体由上图的RCA模块进行实现。具体而言,该模块的输入是2D图像特征以及毫米波雷达的BEV特征。然后,2D图像特征经过横轴和纵轴方向的池化操作得到横纵特征向量。其次,横轴方向的特征向量与毫米波雷达BEV特征利用Azimuth Grouping计算相关联的特征,进而实现像素级的特征融合,最后再与纵轴方向的特征进行进行乘法运算得到融合后的图像特征,再经过一层卷积得到最终的PV特征图。

  • BEV Fusion:这一部分中,将PV Fusion输出的图像特征采用SA-BEV的思路预测离散深度和语义得分,进而转换到BEV特征空间中。然后,将得到的图像BEV特征与毫米波雷达BEV特征采用Gated Fusion Network生成最终的多模态融合的BEV特征。

核心创新点二:Motion Feature Estimation模块

上文也有提到,考虑物体运动的时间融合方法已在3D目标检测领域得到了广泛研究。本文通过在BEV特征图上逐像素测速度和前景目标信息,进而实现最终在时序上完成特征级的对齐任务。

具体而言,针对某一帧BEV特征采用两个平行的预测分支估计目标的速度和位置。为了实现对这两个预测信息更好的监督,本文将对应时刻的真值目标投影到BEV空间,用于完成监督信号的指定,方便模型更好的学习这一过程。

核心创新点三:Motion-Guided Temporal Fusion模块

下图展示了Motion-Guided Temporal Fusion模块的整体结构。具体而言,对于某一时刻的BEV特征,根据预测出来的速度信息,计算在下一时刻对应的空间位置,然后与下一时刻的BEV特征进行合并。同时为了过滤掉移位过程中产生的任何不相关特征,将合并后的特征图逐像素的与前景目标得分相乘得到处理后的结果。最后再经过一个卷积层得到最终的BEV特征。

四、实验结果部分

整体实验对比

可视化结果对比

#牛客创作赏金赛##职场##论文##自动驾驶##互联网#

记录一位智驾感知算法工程师的日常读论文笔记(不定期更新~)

全部评论

相关推荐

不愿透露姓名的神秘牛友
11-14 15:19
点赞 评论 收藏
分享
评论
1
1
分享
牛客网
牛客企业服务