2025-01-08 09:59 门头沟学院智能驾驶系统工程师发布于北京

关注

EMMA：Waymo打造多模态端到端智驾算法，多任务取得SOTA！

一、论文导读

在本文中，作者提出了一种多模态的端到端智驾算法框架EMMA。EMMA算法框架以Google提出的多模态大模型Gemini为基础，使用不同的prompt对多种自动驾驶任务进行微调，取得了轨迹规划、目标感知、场景语义、道路元素等多任务的SOTA性能🚀

二、论文研究背景

在自动驾驶技术发展的早期，自动驾驶系统采用模块化的方式进行构建。这种方式虽然更容易调试和优化单个模块，但也会造成模块间误差累积的问题。随着技术的发展，端到端自动驾驶系统逐渐取得了工业界和学术界的广泛关注，这种方式实现了各类自动驾驶任务的联合优化，但是也会出现端到端模型难以训练的问题。

最近，大模型所具有的强大的常识和推理能力得到了越来越多的关注，已经有很多工作探索如何将现有驾驶系统的功能与大模型进行集成，从而实现自动驾驶性能的进一步提高。

针对上述的自动驾驶发展历程，本文在Google研发的Gemini多模态大模型的基础上，设计并实现了EMMA自动驾驶模型，并且在多个任务上取得了非常出色的性能。

三、网络模型结构&技术细节梳理

下图展示了EMMA算法模型的整体网络结构，整体而言，通过利用经过训练的自回归Gemini模型来处理交错的文本和视觉输入，进而生成文本形式的输出结果

End-to-End Motion Planning

EMMA框架采用统一的端到端训练模型，直接从传感器数据生成自动驾驶车辆的未来轨迹。然后，这些生成的轨迹被转换成车辆特定的控制动作。具体而言，EMMA生成用于运动规划的未来轨迹并以文本的形式进行表示，其输入包括以下内容

Surround-view camera videos：用于提供全面的环境信息
High-level intent command：包括“直行”、“左转”、“右转”等指令
Set of historical ego status：在历史时刻下，BEV空间中的一组waypoint坐标集合

最终通过下面公式的表示形式，得到最终的未来轨迹输出结果

Planning with Chain-of-Thought Reasoning

COT是MLLM中的一个强大工具，可以增强推理能力并提高可解释性。本文通过将COT引入到了端到端的轨迹生成过程中，在模型阐述决策理由的同时，输出最终的未来轨迹waypoint。

同时，作者设计了四种由粗糙到精细的模式来提高模型的推理能力。

Scene description：广泛描述驾驶场景，包括天气、日期、交通状况和道路状况
Critical objects：识别道路上可能影响自车驾驶行为的目标，并得到其精确的3D/BEV空间坐标
Behavior description of critical objects：描述已识别的Critical Objects的当前状态和意图
Meta driving decision：包括 12 类高级驾驶决策，根据之前的观察制定的相应的驾驶规划

EMMA Generalist

虽然端到端的运动规划是最终的核心任务，但全面的自动驾驶系统需要额外的能力。具体来说，它必须感知3D世界并识别周围的目标、道路图和交通状况。为了实现这一目标，文章中将EMMA制定为一个通用模型，能够通过混合训练来处理多项自动驾驶任务。

Spatial reasoning：本文重点关注3D目标检测任务，将7D的检测框转换为具有两位小数的浮点格式的文字表示，每个维度用空格隔开。作者使用固定的prompt来表示3D目标检测任务

Road graph estimation：该任务的重点是识别安全驾驶的关键道路元素，包括语义要素（比如车道标记、标志）和物理属性（车道的曲率）。这些道路元素的集合就形成了道路图。

Scene understanding：该任务聚焦于对于整个驾驶场景的理解。比如，道路可能因施工、紧急情况或其他事件而暂时受阻。及时检测这些障碍并安全地绕过它们对于确保自动驾驶汽车平稳安全运行至关重要。

四、实验结果部分

#牛客创作赏金赛##分享一个让你热爱工作的瞬间##你们的毕业论文什么进度了##互联网##算法##自动驾驶#

智驾感知论文集合文章被收录于专栏

记录一位智驾感知算法工程师的日常读论文笔记（不定期更新~）

全部评论

推荐最新楼层

05-25 13:08

湖南工程学院 Java

xdm,我这个简历还有救吗？

boss上面沟通300+，投递42，3个面试，但是有好多看了就不鸟我了

点赞评论收藏

分享

05-27 18:28

武汉市武钢三中产品经理

双非毕业生求职突围指南：实战经验与深刻教训

每年毕业季，当名校光环与顶尖学历在招聘市场上占据聚光灯时，数以百万计的双非院校毕业生正面临一道隐形的壁垒。他们不是不努力，而是在简历初筛阶段就屡屡被系统关键词过滤，在面试环节因“学校没听过”而被面试官轻描淡写地跳过。但学历的起点从来不是终点——2026年的今天，农历四月十一，距离新一届秋招还有三个月，正是复盘与行动的黄金窗口。本文整理了一位在三年间投递近500份简历、经历200余场面试的双非毕业生的实战经验与教训，剔除鸡汤与玄学，只讲可复用的策略与底层逻辑，希望能帮助同样处境的你，把“劣势”转化成独特的“差异化优势”。一、求职前的三大认知重构撕掉“双非”标签，但别逃避“筛选规则” 很多双非毕业...

点赞评论收藏

分享

04-27 19:35

萍乡学院后端工程师

28届学院本，求大佬锐评简历。

这两个项目都是自己vibe coding出来的，简历是AI生成优化的，其中还有很多东西是不懂的。求大佬指点🙏🥹

程序员小白条：vibe你只要能cover住面试官问你很多深入的实现和选型方案的原因，以及怎么去检测优化效果的就行了

点赞评论收藏

分享

04-27 20:33

华东理工大学 C++

春招至今0offer，我的人生会完蛋吗

太丢脸了 但是实在太焦虑了，请问一下26届的友友们，大家都找到工作了吗

夏目LTH：这个真的很看运气，多投吧。我从去年十二月底一直投到现在，之前没一个offer，结果两周前投的一家面试官聊的特别好，直接速通offer还给的SP待遇开的比我期望都够。

我的求职进度条

点赞评论收藏

分享

昨天 14:43

已编辑

门头沟学院测试工程师

爱莫科技——测试工程师（社招）

时间：2026.2.26一面（测试组长面，线下面，15min）：1.自我介绍2.实习、工作，项目经历3.做过自动化吗4.用例是自己写的还是别人写好你执行5.怎么测多模态模型6.为什么选择做测试而不是开发7.了解我们公司的产品吗，说一下8.上一家公司离职的原因9.看你有一段时间是gap期，这段时间在做什么（雷区，千万不要答考公）10.反问 年后第一场面试，状态极差，有gap期绝对不能答考公，只能回答学习、考研下岸等之类的，面试官听到“考公”两字直接没有任何耐心，而且也对我简历上的东西不感兴趣，最后连简历都不收还给我了，15分钟秒挂#牛客AI配图神器#

点赞评论收藏

分享

评论

3

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 发面经攒人品 #

8929978次浏览 98973人参与

# 体制内上岸心路历程 #

39449次浏览 226人参与

# 27届实习投递记录 #

169123次浏览 1698人参与

# 担心入职之后被发现很菜怎么办 #

308140次浏览 1226人参与

# 求职遇到的搞笑事件 #

199189次浏览 1009人参与

# 你收到了团子的OC了吗 #

1640616次浏览 11870人参与

# 万物皆可发面经 #

6377次浏览 82人参与

# 扒一扒那些奇葩实习经历 #

161219次浏览 1184人参与

# 现在还是0offer，延毕还是备考 #

1434892次浏览 7969人参与

# 查收我的offer竞争力报告 #

303992次浏览 1763人参与

# 招聘要求与实际实习内容不符怎么办 #

227319次浏览 1078人参与

# 实习生的蛐蛐区 #

1013633次浏览 5167人参与

# 实习，不懂就问 #

233530次浏览 1773人参与

# HR问：你期望的薪资是多少？如何回答 #

103498次浏览 841人参与

# AI了，我在打一种很新的工 #

213180次浏览 2393人参与

# 父母对你找工作是助力还是阻力？ #

54522次浏览 483人参与

# 地方国企笔面经互助 #

43515次浏览 113人参与

# 秋招盘点:机械人值得去的企业 #

109087次浏览 746人参与

# 美团秋招笔试 #

222310次浏览 1203人参与

# 实习最想跑路的瞬间 #

148099次浏览 787人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务