2022-08-16 23:06 北京科技大学算法工程师发布于浙江

关注

算法面试高频知识点：深度学习基础总结

图片说明

----【深度学习基础】----

【一】卷积有什么特点？

卷积主要有三大特点：

局部连接。比起全连接，局部连接会大大减少网络的参数。在二维图像中，局部像素的关联性很强，设计局部连接保证了卷积网络对图像局部特征的强响应能力。
权值共享。参数共享也能减少整体参数量，增强了网络训练的效率。一个卷积核的参数权重被整张图片共享，不会因为图像内位置的不同而改变卷积核内的参数权重。
下采样。下采样能逐渐降低图像分辨率，实现了数据的降维，并使浅层的局部特征组合成为深层的特征。下采样还能使计算资源耗费变少，加速模型训练，也能有效控制过拟合。

【二】不同层次的卷积都提取什么类型的特征？

浅层卷积 $\rightarrow$ 提取边缘特征
中层卷积 $\rightarrow$ 提取局部特征
深层卷积 $\rightarrow$ 提取全局特征

【三】卷积核大小如何选取？

最常用的是 $3*3$ 大小的卷积核，两个 $3 * 3$ 卷积核和一个 $5 * 5$ 卷积核的感受野相同，但是减少了参数量和计算量，加快了模型训练。与此同时由于卷积核的增加，模型的非线性表达能力大大增强。

不过大卷积核（ $7 * 7，9 * 9$ ）也有使用的空间，在GAN，图像超分辨率，图像融合等领域依然有较多的应用，大家可按需切入感兴趣的领域查看相关论文。

【四】卷积感受野的相关概念

目标检测和目标跟踪很多模型都会用到RPN层，anchor是RPN层的基础，而感受野（receptive field，RF）是anchor的基础。

感受野的作用：

一般来说感受野越大越好，比如分类任务中最后卷积层的感受野要大于输入图像。
感受野足够大时，被忽略的信息就较少。
目标检测任务中设置anchor要对齐感受野，anchor太大或者偏离感受野会对性能产生一定的影响。

感受野计算：

增大感受野的方法：

使用空洞卷积
使用池化层
增大卷积核

【五】网络每一层是否只能用一种尺寸的卷积核？

常规的神经网络一般每层仅用一个尺寸的卷积核，但同一层的特征图可以分别使用多个不同尺寸的卷积核，以获得不同尺度的特征，再把这些特征结合起来，得到的特征往往比使用单一尺寸卷积核的要好，如GoogLeNet 、Inception系列的网络，均是每层使用了多个不同的卷积核结构。如下图所示，输入的特征图在同一层分别经过 $1*1，3*3和5*5$ 三种不同尺寸的卷积核，再将各自的特征图进行整合，得到的新特征可以看作不同感受野提取的特征组合，相比于单一尺寸卷积核会有更强的表达能力。

【六】 $1*1$ 卷积的作用？

$1 * 1$ 卷积的作用主要有以下几点：

实现特征信息的交互与整合。
对特征图通道数进行升维和降维，降维时可以减少参数量。
$1*1$ 卷积+ 激活函数 $\rightarrow$ 增加非线性，提升网络表达能力。

升维与降维

$1 * 1$ 卷积首发于NIN（Network in Network），后续也在GoogLeNet和ResNet等网络中使用。感兴趣的朋友可追踪这些论文研读细节。

【七】转置卷积的作用？

转置卷积通过训练过程学习到最优的上采样方式，来代替传统的插值上采样方法，以提升图像分割，图像融合，GAN等特定任务的性能。

转置卷积并不是卷积的反向操作，从信息论的角度看，卷积运算是不可逆的。转置卷积可以将输出的特征图尺寸恢复卷积前的特征图尺寸，但不恢复原始数值。

转置卷积的计算公式：

我们设卷积核尺寸为 $K*K$ ，输入特征图为 $i * i$ 。

（1）当 $stride = 1，padding = 0$ 时：

输入特征图在进行转置卷积操作时相当于进行了 $padding = K - 1$ 的填充，接着再进行正常卷积转置之后的标准卷积运算。

输出特征图的尺寸 = $i + (K - 1)$

（2）当 $stride > 1，padding = 0$ 时：

输入特征图在进行转置卷积操作时相当于进行了 $padding = K - 1$ 的填充，相邻元素间的空洞大小为 $stride - 1$ ，接着再进行正常卷积转置之后的标准卷积运算。

输出特征图的尺寸 = $stride * (i - 1) + K$

【八】空洞卷积的作用？

空洞卷积的作用是在不进行池化操作损失信息的情况下，增大感受野，让每个卷积输出都包含较大范围的信息。

空洞卷积有一个参数可以设置dilation rate，其在卷积核中填充dilation rate个0，因此，当设置不同dilation rate时，感受野就会不一样，也获取了多尺度信息。

(a) 图对应3x3的1-dilated conv，和普通的卷积操作一样。(b)图对应 $3*3$ 的2-dilated conv，实际的卷积kernel size还是 $3*3$ ，但是空洞为 $1$ ，也就是对于一个 $7*7$ 的图像patch，只有 $9$ 个红色的点和 $3*3$ 的kernel发生卷积操作，其余的点的权重为 $0$ 。(c)图是4-dilated conv操作。

【九】全连接层的作用？

全连接层将卷积学习到的高维特征映射到label空间，可以作为整个网络的分类器模块。

虽然全连接层参数存在冗余的情况，但是在模型进行迁移学习时，其能保持较大的模型capacity。

目前很多模型使用全局平均池化（GAP）取代全连接层以减小模型参数，并且依然能达到SOTA的性能。

【十】CNN中池化的作用？

池化层的作用是对感受野内的特征进行选择，提取区域内最具代表性的特征，能够有效地减少输出特征数量，进而减少模型参数量。按操作类型通常分为最大池化(Max Pooling)、平均池化(Average Pooling)和求和池化(Sum Pooling)，它们分别提取感受野内最大、平均与总和的特征值作为输出，最常用的是最大池化和平均池化。

【十一】有哪些方法能提升CNN模型的泛化能力？

采集更多数据：数据决定算法的上限。
优化数据分布：数据类别均衡。
选用合适的目标函数。
设计合适的网络结构。
数据增强。
权值正则化。
使用合适的优化器等。

【十二】BN层面试高频问题大汇总

BN层解决了什么问题？

统计机器学习中的一个经典假设是“源空间（source domain）和目标空间（target domain）的数据分布（distribution）是一致的”。如果不一致，那么就出现了新的机器学习问题，如transfer learning/domain adaptation等。而covariate shift就是分布不一致假设之下的一个分支问题，它是指源空间和目标空间的条件概率是一致的，但是其边缘概率不同。对于神经网络的各层输出，由于它们经过了层内卷积操作，其分布显然与各层对应的输入信号分布不同，而且差异会随着网络深度增大而增大，但是它们所能代表的label仍然是不变的，这便符合了covariate shift的定义。

因为神经网络在做非线性变换前的激活输入值随着网络深度加深，其分布逐渐发生偏移或者变动（即上述的covariate shift）。之所以训练收敛慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近（比如sigmoid），所以这导致反向传播时低层神经网络的梯度消失，这是训练深层神经网络收敛越来越慢的本质原因。而BN就是通过一定的正则化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，避免因为激活函数导致的梯度弥散问题。所以与其说BN的作用是缓解covariate shift，也可以说BN可缓解梯度弥散问题。

BN的公式