缩写解释
BGD : Batch Gridient Descent 批量梯度下降
SGD : Stochastic 随机梯度下降
RCNN - Region-CNN
SS - Selective Search 选择性搜索
ROI - Region Of Interst 感兴趣区域
RPN - Region Proposal Network 区域推荐网络
bbox - bounding box 边界框
SPP - Spatial Pyramid Pooling 空间金字塔池化
GT - Ground Truth 检测框的真实位置,大小,形状
NMS - Non Maximum Suppression 非极大抑制
LeNet : (卷积层、池化层、全连接层)
– 输入:输入32*32大小单通道图像
– 两个“卷积-池化层”
– 第一个全连接层神经元数目为500,再接激活函数
– 第二个全连接层神经元数目为10,得到10维的特征向量,用于10个数字的分类训练,送入softmaxt分类,得到分类结果的概率
AlexNet:
- 使用ReLU作为激活函数,并验证其效果在较深的网络超过了Sigmoid,成功解决了Sigmoid在网络较深时的梯度弥散问题
- 使用Dropout(丢弃学习)随机忽略一部分神经元防止过拟合
- 在CNN中使用重叠的最大池化。此前CNN中普遍使用平均池化,AlexNet全部使用最大池化,避免平均池化的模糊化效果.
- 提出了LRN(Local Response Normalization,局部正规化)层,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力
- 使用CUDA加速深度卷积网络的训练,利用GPU强大的并行计算能力,处理神经网络训练时大量的矩阵运算
网络包含8层,其中前5层为卷积-池化层,后3层为全连接层;输入224×224×3的图像,第一卷积层用96个11×11×3的卷积核对进行滤波,步幅4像素;全连接的每层有4096个神经元,最后一个完全连接的层的输出被馈送到SoftMax,它产生超过1000个类别标签的分布;整个网络共650000个神经元
VGGNet :Visual Geometry Group
- 网络深度:16~19层
- 5组卷积-池化层,3个全连接层
- 三个全连接层,前两层都有4096通道,第三层共1000路及代表1000个标签类别;最后一层为softmax层(输出1000个类别对应的预测概率值。)
- 所有卷积层有相同的配置,即卷积核大小为3x3,步长为1,填充为1
- 池化层区域大小2x2,步长为2
GoogLeNet:
微软的ResNet:(残差网络)
- 使用区域生成算法,生成2000个候选区域,这里使用的是Selective search。
- 对生成的2000个候选区域,使用预训练好的AlexNet网络进行特征提取。将候选区域变换到网络需要的尺寸(227×227)。 在进行变换的时候,在每个区域的边缘添加p个像素(即添加边框,设置p=16)。
- 同时,改造预训练好的AlexNet网络,将其最后的全连接层去掉,并将类别设置为21(20个类别,另外一个类别代表背景)。
- 每个候选区域输入到网络中,最终得到4096×21个特征。利用上面提取到的候选区域的特征,对每个类别训练一个SVM分类器(二分类),判断候选框中物体的类别,输出Positive/Negative。如果该区域与Ground truth的IOU低于某个阈值,就将给区域设置为Negative(阈值设置为0.3)。
- 使用selective search生成region proposal,大约2000个左右区域候选框
- 使用CNN对图像进行卷积运算,得到整个图像的特征图
- 对于每个候选框,通过RoI Projection映射算法取出该候选框的特征图,再通过RoI池化层形成固定长度的特征向量
- 每个特征向量被送入一系列全连接(fc)层中,最终分支成两个同级输出层 :一个输出个类别加上1个背景类别的Softmax概率估计,另一个为个类别的每一个类别输出4个定位信息
- Conv Layers。作为一种CNN网络目标检测方法,Faster RCNN首先使用一组基础的卷积/激活/池化层提取图像的特征,形成一个特征图,用于后续的RPN层和全连接层。
- Region Proposal Networks(RPN)。RPN网络用于生成候选区域,该层通过softmax判断锚点(anchors)属于前景还是背景,在利用bounding boxregression(包围边框回归)获得精确的候选区域。
- RoI Pooling。该层收集输入的特征图和候选区域,综合这些信息提取候选区特征图(proposal feature maps),送入后续全连接层判定目标的类别。
- Classifification。利用取候选区特征图计算所属类别,并再次使用边框回归算法获得边框最终的精确位置。
RPN网络
YOLOv1
YOLOv3
YOLOv4
YOLOv5
SSD
OCR
CTPN
SegLink
CRNN+CTC
FCN
U-Net
MASK R-CNN
DeepLab v1
DeepLab v2
DeepLab v3
DeepLab v3+
DCGAN
VGGNet :Visual Geometry Group
Google Inception Net
微软的ResNet
R-CNN
FAST R-CNN
FASTER R-CNN
YOLOv1
YOLOv2
YOLOv3
YOLOv4
YOLOv5
SSD
OCR
CTPN
SegLink
CRNN+CTC
FCN
U-Net
MASK R-CNN
DeepLab v1
DeepLab v2
DeepLab v3
DeepLab v3+
DCGAN