EMMA:Waymo打造多模态端到端智驾算法,多任务取得SOTA!
一、论文导读
在本文中,作者提出了一种多模态的端到端智驾算法框架EMMA。EMMA算法框架以Google提出的多模态大模型Gemini为基础,使用不同的prompt对多种自动驾驶任务进行微调,取得了轨迹规划、目标感知、场景语义、道路元素等多任务的SOTA性能🚀
二、论文研究背景
在自动驾驶技术发展的早期,自动驾驶系统采用模块化的方式进行构建。这种方式虽然更容易调试和优化单个模块,但也会造成模块间误差累积的问题。随着技术的发展,端到端自动驾驶系统逐渐取得了工业界和学术界的广泛关注,这种方式实现了各类自动驾驶任务的联合优化,但是也会出现端到端模型难以训练的问题。
最近,大模型所具有的强大的常识和推理能力得到了越来越多的关注,已经有很多工作探索如何将现有驾驶系统的功能与大模型进行集成,从而实现自动驾驶性能的进一步提高。
针对上述的自动驾驶发展历程,本文在Google研发的Gemini多模态大模型的基础上,设计并实现了EMMA自动驾驶模型,并且在多个任务上取得了非常出色的性能。
三、网络模型结构&技术细节梳理
下图展示了EMMA算法模型的整体网络结构,整体而言,通过利用经过训练的自回归Gemini模型来处理交错的文本和视觉输入,进而生成文本形式的输出结果
End-to-End Motion Planning
EMMA框架采用统一的端到端训练模型,直接从传感器数据生成自动驾驶车辆的未来轨迹。然后,这些生成的轨迹被转换成车辆特定的控制动作。具体而言,EMMA生成用于运动规划的未来轨迹并以文本的形式进行表示,其输入包括以下内容
- Surround-view camera videos:用于提供全面的环境信息
- High-level intent command:包括“直行”、“左转”、“右转”等指令
- Set of historical ego status:在历史时刻下,BEV空间中的一组waypoint坐标集合
最终通过下面公式的表示形式,得到最终的未来轨迹输出结果
Planning with Chain-of-Thought Reasoning
COT是MLLM中的一个强大工具,可以增强推理能力并提高可解释性。本文通过将COT引入到了端到端的轨迹生成过程中,在模型阐述决策理由的同时,输出最终的未来轨迹waypoint。
同时,作者设计了四种由粗糙到精细的模式来提高模型的推理能力。
- Scene description:广泛描述驾驶场景,包括天气、日期、交通状况和道路状况
- Critical objects:识别道路上可能影响自车驾驶行为的目标,并得到其精确的3D/BEV空间坐标
- Behavior description of critical objects:描述已识别的Critical Objects的当前状态和意图
- Meta driving decision:包括 12 类高级驾驶决策,根据之前的观察制定的相应的驾驶规划
EMMA Generalist
虽然端到端的运动规划是最终的核心任务,但全面的自动驾驶系统需要额外的能力。具体来说,它必须感知3D世界并识别周围的目标、道路图和交通状况。为了实现这一目标,文章中将EMMA制定为一个通用模型,能够通过混合训练来处理多项自动驾驶任务。
- Spatial reasoning:本文重点关注3D目标检测任务,将7D的检测框转换为具有两位小数的浮点格式的文字表示,每个维度用空格隔开。作者使用固定的prompt来表示3D目标检测任务
- Road graph estimation:该任务的重点是识别安全驾驶的关键道路元素,包括语义要素(比如车道标记、标志)和物理属性(车道的曲率)。这些道路元素的集合就形成了道路图。
- Scene understanding:该任务聚焦于对于整个驾驶场景的理解。比如,道路可能因施工、紧急情况或其他事件而暂时受阻。及时检测这些障碍并安全地绕过它们对于确保自动驾驶汽车平稳安全运行至关重要。
四、实验结果部分
记录一位智驾感知算法工程师的日常读论文笔记(不定期更新~)