缩写解释

BGD : Batch Gridient Descent 批量梯度下降

SGD :  Stochastic 随机梯度下降

MBGD :  Mini-Batch Gradient Descent, MBGD  小批量梯度下降
CNN - Convolution Neural Network 卷积神经网络

RCNN - Region-CNN

SS - Selective Search 选择性搜索

ROI - Region Of Interst 感兴趣区域

RPN - Region Proposal Network 区域推荐网络

bbox - bounding box 边界框

SPP - Spatial Pyramid Pooling 空间金字塔池化

GT - Ground Truth 检测框的真实位置,大小,形状

NMS - Non Maximum Suppression 非极大抑制


CNN :Convolutional Neural Network 卷积神经网络  (relu为激活函数)
卷积后产生的特征图大小计算公式为:矩阵大小为 w , 卷积核大小为 k , 步幅为 s , 补零层数为 p

LeNet : (卷积层、池化层、全连接层)

– 输入:输入32*32大小单通道图像
– 两个“卷积-池化层”
– 第一个全连接层神经元数目为500,再接激活函数
– 第二个全连接层神经元数目为10,得到10维的特征向量,用于10个数字的分类训练,送入softmaxt分类,得到分类结果的概率

AlexNet:

  1. 使用ReLU作为激活函数,并验证其效果在较深的网络超过了Sigmoid,成功解决了Sigmoid在网络较深时的梯度弥散问题
  2. 使用Dropout(丢弃学习)随机忽略一部分神经元防止过拟合
  3. 在CNN中使用重叠的最大池化。此前CNN中普遍使用平均池化,AlexNet全部使用最大池化,避免平均池化的模糊化效果.
  4. 提出了LRN(Local Response Normalization,局部正规化)层,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力
  5. 使用CUDA加速深度卷积网络的训练,利用GPU强大的并行计算能力,处理神经网络训练时大量的矩阵运算

网络包含8层,其中前5层为卷积-池化层后3层为全连接层;输入224×224×3的图像,第一卷积层用96个11×11×3的卷积核对进行滤波,步幅4像素;全连接的每层有4096个神经元,最后一个完全连接的层的输出被馈送到SoftMax,它产生超过1000个类别标签的分布;整个网络共650000个神经元

VGGNet :Visual Geometry Group

  1. 网络深度:16~19层
  2. 5组卷积-池化层,3个全连接层
  3. 三个全连接层,前两层都有4096通道,第三层共1000路及代表1000个标签类别;最后一层为softmax层(输出1000个类别对应的预测概率值。
  4. 所有卷积层有相同的配置,即卷积核大小为3x3,步长为1,填充为1
  5. 池化层区域大小2x2,步长为2

手撕 CNN 经典网络之 VGGNet(理论篇) - 知乎

GoogLeNet:

多尺寸卷积

微软的ResNet:(残差网络

1.超深的网络结构(超过1000层)。
2.提出residual(残差结构)模块。
3.使用Batch Normalization 加速训练(批量正则化)(丢弃dropout)。
为了解决梯度消失或梯度爆炸问题,ResNet论文提出通过数据的预处理以及在网络中使用 BN(Batch Normalization)层来解决。

R-CNN   (Regions with CNN features):

  1. 使用区域生成算法,生成2000个候选区域,这里使用的是Selective search。
  2. 对生成的2000个候选区域,使用预训练好的AlexNet网络进行特征提取。将候选区域变换到网络需要的尺寸(227×227)。 在进行变换的时候,在每个区域的边缘添加p个像素(即添加边框,设置p=16)。
  3. 同时,改造预训练好的AlexNet网络,将其最后的全连接层去掉,并将类别设置为21(20个类别,另外一个类别代表背景)。
  4. 每个候选区域输入到网络中,最终得到4096×21个特征。利用上面提取到的候选区域的特征,对每个类别训练一个SVM分类器(二分类),判断候选框中物体的类别,输出Positive/Negative。如果该区域与Ground truth的IOU低于某个阈值,就将给区域设置为Negative(阈值设置为0.3)。


FAST R-CNN:
Fast R-CNN仍然使用VGG16作为网络的backbone,其创新点在于只进行一次图像特征提取(而不是每个候选区域计算一次)

  1. 使用selective search生成region proposal,大约2000个左右区域候选框
  2. 使用CNN对图像进行卷积运算,得到整个图像的特征图
  3. 对于每个候选框,通过RoI Projection映射算法取出该候选框的特征图,再通过RoI池化层形成固定长度的特征向量
  4. 每个特征向量被送入一系列全连接(fc)层中,最终分支成两个同级输出层 :一个输出个类别加上1个背景类别的Softmax概率估计,另一个为个类别的每一个类别输出4个定位信息
FASTER R-CNN

  1. Conv Layers。作为一种CNN网络目标检测方法,Faster RCNN首先使用一组基础的卷积/激活/池化层提取图像的特征,形成一个特征图,用于后续的RPN层和全连接层。
  2. Region Proposal Networks(RPN)。RPN网络用于生成候选区域,该层通过softmax判断锚点(anchors)属于前景还是背景,在利用bounding boxregression(包围边框回归)获得精确的候选区域。
  3. RoI Pooling。该层收集输入的特征图和候选区域,综合这些信息提取候选区特征图(proposal feature maps),送入后续全连接层判定目标的类别。
  4. Classifification。利用取候选区特征图计算所属类别,并再次使用边框回归算法获得边框最终的精确位置。

RPN网络


全称Region Proposal Network(区域提议网络),是专门用来从特征图生成候选区域的网络。其结构如下所示:流程步骤:
(1)输入:通过主干网卷积得到的特征图
(2)对于特征图上的每一个点(称之为anchor point,锚点),生成具有不同 尺度和 宽高比 的锚点框,这个锚点框的坐标(x,y,w,h)是在原图上的坐标
(3)然后将这些锚点框输入到两个网络层中去,一个(rpn_cls_score )用来分类,即这个锚点框里面的特征图是否属于前景;另外一个(rpn_bbox_pred)输出四个位置坐标(相对于真实物体框的偏移)
(4)将锚点框与Ground Truth中的标签框进行 IoU 对比,如果其 IoU 高于某个阈值,则该锚点框标定为前景框,否则属于背景框;对于前景框,还要计算其与真实标签框的4个位置偏移;将这个标注好的锚点框(带有 前背景类别 和 位置偏移 标注)与3中卷积网络层的两个输出进行loss比较(类别:CrossEntrpy loss 和 位置回归:smooth L1 loss),从而学习到如何提取前景框
(5)学习到如何提取前景框后,就根据 rpn_cls_score 层的输出概率值确定前景框;位置偏移值则被整合到锚点框的坐标中以得到实际的框的坐标;这样子就得到了前景框,起到了selective search的作用。RPN生成的proposal就称为 Region ofinterest.由于他们具有不同的尺度和长度,因此需要通过一个 ROI pooling层获得统一的大小

YOLOv1


(1)预训练。采用前20个卷积层、平均池化层、全连接层进行了大约一周的预训练;
(2)输入。输入数据为224*224和448*448大小的图像;
(3)采用相对坐标。通过图像宽度和高度来规范边界框的宽度和高度,使它们落在0和1之间;边界框 和 坐标参数化为特定网格单元位置的偏移量,边界也在0和1之间;
(4)损失函数

YOLOv2
Darknet-19,其网络结构如下图所示,包括19个卷积层和5个max pooling层,主要采用3*3卷积和1*1卷积,这里1*1卷积可以压缩特征图通道数以降低模型计算量和参数,每个卷积层后使用BN层
以加快模型收敛同时防止过拟合。最终采用global avg pool 做预测。

YOLOv3

YOLOv4

YOLOv5

SSD

OCR

CTPN

SegLink

CRNN+CTC

FCN

U-Net

MASK R-CNN

DeepLab v1

DeepLab v2

DeepLab v3

DeepLab v3+

DCGAN


VGGNet :Visual Geometry Group
Google Inception Net

微软的ResNet


R-CNN

FAST R-CNN

FASTER R-CNN

YOLOv1

YOLOv2

YOLOv3

YOLOv4

YOLOv5

SSD

OCR

CTPN

SegLink

CRNN+CTC

FCN

U-Net

MASK R-CNN

DeepLab v1

DeepLab v2

DeepLab v3

DeepLab v3+

DCGAN






全部评论
不同的行业的缩写,有时候就是一样的
点赞 回复 分享
发布于 2022-09-25 12:30 陕西

相关推荐

已老实求offer😫:有点像徐坤(没有冒犯的意思哈)
点赞 评论 收藏
分享
头像
10-16 09:58
已编辑
门头沟学院 Java
点赞 评论 收藏
分享
点赞 收藏 评论
分享
牛客网
牛客企业服务