2021-10-16 14:39 已编辑华南理工大学 Java

关注

读论文系列：Object Detection CVPR2016 YOLO

CVPR2016： You Only Look Once:Unified, Real-Time Object Detection

转载请注明作者：梦里茶

YOLO detection system

YOLO，You Only Look Once，摒弃了RCNN系列方法中的region proposal步骤，将detection问题转为一个回归问题

网络结构

输入图片：resize到448x448
整张图片输入卷积神经网络（24层卷积+2层全连接，下面这张示意图是Fast YOLO的）

CNN

将图片划分为SxS个格子，S=7
输出一个SxS大小的class probability map，为图片上每个格子所属的分类

Model

输出为每个格子输出B个bounding box，每个bounding box由x,y,w,h表示，为每个bounding box输出一个confidence，即属于前景的置信度

于是输出可以表示为一个SxSx(B*(4+1)+C)的tensor，训练只需要根据数据集准备好这样的tensor进行regression就行

对所有bounding box按照confidence做非极大抑制，得到检测结果

训练

Loss

YOLO Loss Function

前两行为定位loss，λ_coord为定位loss的权重，论文中取5
第三行为一个bounding box属于前景时的置信度回归loss，
- 当格子中有对象出现时，真实C_i为1，
- 1_ij^obj是一个条件表达式，当bounding box“负责(is responsible for)”图中一个真实对象时为1，否则为0，
- 所谓“负责”，指的是在当前这个格子的所有bounding box中，这个bounding box与真实的bounding box重叠率最大
第四行为一个bounding box属于背景时的置信度回归loss，
- 为了避免负样本过多导致模型跑偏， λ_noobj=0.5，
- 1_ij^noobj是一个条件表达式，为1_ij^obj取反
- 于是我们可以发现一个格子的两个bounding box的分工：一个贡献前景loss，一个贡献背景loss ，不论是前景背景box，我们都希望它们的confidence接近真实confidence，实际上，如果 λ_noobj=1，第四五行可以合并为一项求和，但由于背景box太多，所以才单独拆开加了权重约束

第五行为分类loss，1_i^obj是一个条件表达式，当有对象出现在这个格子中，取1，否则取0

YOLO里最核心的东西就讲完了，其实可以把YOLO看作固定region proposal的Faster RCNN，于是可以省掉Faster RCNN里region proposal部分，分类和bounding box regression跟Faster RCNN是差不多的

细节

Leaky Relu

网络中只有最后的全连接层用了线性的激活函数，其他层用了leaky Relu：f(x)=max(x, 0.1x)

对比Relu和leaky Relu

Relu

Leaky Relu

在x小于0的时候，用了0.1x，避免使用relu的时候有些单元永远得不到激活（Dead ReLU Problem）

Fast YOLO

卷积层更少，只有9层卷积+2层全连接，每层filters也更少，于是速度更快

实验效果

对比当前最好方法：

SOA

Fast YOLO速度最快，准确率不太高，但还是比传统方法好，YOLO则比较中庸，速度不慢，准确率也不太高，但也还行。

再看看具体是在哪些类型的图片上出错的：

Error Analysis

主要是定位不准（毕竟没有精细的region proposal），但是在背景上出错较少（不容易把背景当成对象）

缺点

固定的格子是一种很强的空间限制，7x7的格子决定了整张图片最多预测98个对象，对于对象数量很多的图片（比如鸟群）无能为力
难以泛化到其他形状或角度的物体上
损失函数没有考虑不同尺寸物体的error权重，大box权重和小box权重一样

Summary

Anyway，YOLO结构还是挺优雅的，比Faster RCNN黑科技少多了，更重要的是，它是当时最快的深度学习检测模型，也是很值得肯定的。

全部评论

推荐最新楼层

04-22 13:39

University of Birmingham 产品经理

字节跳动产品实习生面经（一面挂）

这个岗位是在官网投递的，属于日常实习，主要负责飞连这款产品。大概初筛+评估一周后HR打电话约面，当晚就面了。很强的KPI感，面试官礼貌且冷静且微笑，全程丝滑、毫无波澜，问得都比较常规，第二天就挂了。过程记录自我介绍挑一段实习经历详细介绍实习+项目深挖你觉得上一段实习不足的地方在哪里？根据你的实习体验，你觉得产品经理和其他岗位有什么区别？产品经理需要哪些特质？场景题（给某群体设计某产品，你会怎么做？）闲聊：什么爱好？具体说说出勤状况和实习时长反问飞连产品介绍（类似于腾讯IOA）实习工作内容投递记录详见暑期实习求职提前结束，谈谈只拿到1offer的感受。

查看8道真题和解析 Fourier同学的产品... 牛客激励计划

点赞评论收藏

分享

04-22 07:38

清华大学 BSP工程师

突然发现女朋友学嵌入式思路好清晰！偷学了

前几天看女朋友写代码，突然发现她的编程思维太强了！从需求拆解到Debug，每一步都像写数学证明题一样严谨，完全不像我这种“面向CSDN编程”的菜鸡1.C语言基础（15天）-节点：写个贪食蛇游戏、写个学生管理系统视频教程：程序设计入门——C语言（浙大翁恺）C 语言最好的入门书: C Primer Plus(第6版)(中文版)2.数据结构（10天）-节点：模仿实现google自测框架、zlog日志框架视频教程：郝斌数据结构自学教程小破站数据结构：大话数据结构3.操作系统初步了解（5天）-节点：了解系统、内存、线程、进程、通讯机制视频教程：操作系统（哈工大李治军老师）32讲（全）_小破站4.单片机（...

大城市找工作会更容易吗大家每天通勤多久？

点赞评论收藏

分享

昨天 16:06

蚌埠坦克学院后端

终于轮到我了😄😄😄

被拒那么多次，终于轮到我了

点赞评论收藏

分享

02-26 13:46

已编辑

湖南科技大学潇湘学院嵌入式软件工程师

请拷打😭😭，考了研，秋招没去找，想着改改简历，感觉也没啥东西可写#嵌入式#

点赞评论收藏

分享

04-22 21:53

门头沟学院内外饰设计工程师

我是怎么被骗进年包陷阱里的以及怎么避免

硕士毕业后我进了一家500强，但是薪资是怎么沟通的呢，就是年包13+3，年终奖是不确定的。然后就背低绩效了，绩效一低就年终奖直接对半打折。补贴也放进去讲了，结果就是总收入虚的很多。解决办法：问有多少人能拿满绩效，校招生会不会背低绩效？保护期有多久？低绩效能拿多少比例年终奖？要是hr支支吾吾，那我觉得你大概率就是那个牺牲品了。

找工作有哪些冷知识

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

拼多多信息确认

热聊中

创作者周榜

更多

正在热议

更多

# 实习进度记录 #

192113次浏览 2250人参与

# 机械人避雷的岗位/公司 #

10684次浏览 63人参与

# 平安产险科技中心求职汇总 #

245268次浏览 2614人参与

# 小红书取消大小周 #

10820次浏览 87人参与

# 工作经验重要还是工资重要？ #

121224次浏览 824人参与

# 产品人求职现状 #

196239次浏览 1810人参与

# 设计人如何选offer #

96783次浏览 676人参与

# 毕业论文怎么查AI率 #

9949次浏览 663人参与

# 顺丰求职进展汇总 #

47693次浏览 268人参与

# 选择和努力，哪个更重要？ #

72410次浏览 669人参与

# 我的求职精神状态 #

12495次浏览 284人参与

# 2023届毁约公司名单 #

184260次浏览 931人参与

# 一觉醒来，我成论文导师了… #

7089次浏览 157人参与

# 租房找室友 #

13392次浏览 95人参与

# 哪个瞬间让你对大厂祛魅了？ #

291419次浏览 2130人参与

# 正在实习的你，在做dirty work吗 #

110282次浏览 748人参与

# 拼多多工作体验 #

15961次浏览 149人参与

# 读研or工作，哪个性价比更高？ #

54877次浏览 666人参与

# TP-LINK工作体验 #

43960次浏览 812人参与

# 你小时候最想从事什么职业 #

85000次浏览 1606人参与

# 我在牛客求捞 #

43478次浏览 214人参与

牛客网
牛客企业服务