牛客吹哨人

2020-05-26 19:37 已编辑中金所技术公司_业务

关注

深度学习中的一些组件及使用技巧

【说在前面】本人博客新手一枚，象牙塔的老白，职业场的小白。以下内容仅为个人见解，欢迎批评指正，不喜勿喷！[认真看图][认真看图]

【补充说明】深度学习有多火，我就不多说了。本文主要介绍深度学习项目实践过程中可能遇到的一些组件及使用技巧！

一、Optimizor优化器选择

1. 梯度下降：经典

梯度下降的通用计算公式如下：

其中，是学习率， g_t 是梯度。梯度下降完全依赖于当前的梯度，所以可理解为允许当前梯度多大程度影响参数更新。

梯度下降主要包含三种梯度下降：

（1）批量梯度下降（Batch Gradient Descent）

使用所有的训练样本来更新每次迭代中的模型参数

（2）随机梯度下降（Stochastic Gradient Descent）

在每次迭代中，仅使用单个训练样本更新参数（训练样本通常是随机选择的）

（3）小批量梯度下降（Mini-Batch Gradient Descent）：这个最常用

训练时不是使用所有的样本，而是取一个批次的样本来更新模型参数
小批量梯度下降试图在随机梯度下降的稳健性和批量梯度下降的效率之间找到平衡

梯度下降的缺点：

选择合适的learning rate比较困难
对所有的参数更新均使用同样的learning rate
可能被困在鞍点，容易产生局部最优，不能达到全局最优

2. Momentum

Momentum是模拟物理里动量的概念，公式如下：

其中，是动量因子。Momentum积累之前的动量来替代真正的梯度。

Momentum有如下特点：

下降初期时，由于下降方向和梯度方向一致，而使t时刻的动量和变化量变大，从而达到加速的目的
下降中后期时，在局部最小值来回震荡的时候，使得更新幅度增大，跳出陷阱
在梯度改变方向的时候，能够减少更新

总的来说，Momentum可以加速SGD算法的收敛速度，并且降低SGD算法收敛时的震荡。

3. Nesterov

将上一节中的公式展开可得：

可以看出，Momentum并没有直接改变当前梯度。Nesterov的改进就是让之前的动量直接影响当前的动量。即：

其中，加上Nesterov项后，梯度在大的跳跃后，再计算当前梯度进行校正。

Nesterov有如下特点：

对于Momentum，首先计算一个梯度(短的蓝色向量)，然后在加速更新梯度的方向进行一个大的跳跃(长的蓝色向量)
对于Nesterov，首先在之前加速的梯度方向进行一个大的跳跃(棕色向量)，然后计算梯度进行校正(绿色梯向量)

总的来说，Nesterov项在梯度更新时做了一个校正，避免前进太快，同时提高灵敏度。

以上三种方法均需要人工设置一些学习率，接下来介绍几种自适应学习率的方法！

4. Adagrad

Adagrad对学习率进行了一个约束。即：

其中，对 g_t 从1到进行一个递推，形成一个约束项regularizer，用来保证分母非0。

Adagrad有如下特点：

前期较小的时候，regularizer较大，能够放大梯度
后期较大的时候，regularizer较小，能够约束梯度
高频特征更新步长较小，低频特征更新较大，适合处理稀疏梯度
能够自适应学习率，避免了手动调整学习率的麻烦

Adagrad的缺点：

由公式可以看出，仍依赖于人工设置一个全局学习率
设置过大的话，会使regularizer过于敏感，对梯度的调节太大
中后期，分母上梯度平方的累加将会越来越大，使，使得训练提前结束

5. Adadelta

Adadelta是对Adagrad的扩展，它主要解决了adagrad算法单调递减学习率的问题。Adagrad会累加之前所有的梯度平方，而Adadelta只累加固定大小的项，并且也不直接存储这些项，仅仅是近似计算对应的平均值。即：

其中，Adadelta还是依赖于全局学习率，但是做了一定处理，经过近似牛顿迭代法之后：

其中，代表求期望。此时，可以看出Adadelta已经不用依赖于全局学习率了。

Adadelta还有如下特点：

训练初中期，加速效果不错，很快
训练后期，反复在局部最小值附近抖动

6. RMSprop

RMSprop可以算作Adadelta的一个特例，同样是用于解决adagrad算法学习率消失的问题。

当时，就变为了求梯度平方和的平均数。

如果再求根的话，就变成了RMS(均方根)：

此时，这个RMS就可以作为学习率的一个约束：

RMSprop有如下特点：

依然依赖于全局学习率
是Adagrad的一种发展，也是Adadelta的变体，效果趋于二者之间
适合处理非平稳目标

7. Adam：常用

Adam本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。

经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。公式如下：

其中， m_t ， n_t 分别是对梯度的一阶矩估计和二阶矩估计，可以看作对期望，的估计；，是对 m_t ， n_t 的校正，这样可以近似为对期望的无偏估计。可以看出，直接对梯度的矩估计对内存没有额外的要求，而且可以根据梯度进行动态调整，而对学习率形成一个动态约束，而且有明确的范围。

Adam有如下特点：

结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点
对内存需求较小
为不同的参数计算不同的自适应学习率
也适用于大多非凸优化，适用于大数据集和高维空间

8. 其他

例如Adamax（Adam的一种变体）、Nadam（类似于带有Nesterov动量项的Adam）等，这里不展开了。

9. 经验总结

对于稀疏数据，使用学习率可自适应的优化方法（例如Adagrad/Adadelta/RMSprop/Adam等），且最好采用默认值
SGD通常训练时间更长，但是在好的初始化和学习率调度方案的情况下，结果更可靠
如果需要更快的收敛，或者是训练更深更复杂的神经网络，需要用一种自适应的算法

二、激活函数选择

1. 常用的激活函数

发现这么写下去，篇幅太大了，所以找到一张图，概括一下吧：

常用的主要是这些吧，各种激活函数的特点看图也显而易见，其他的（例如PReLU等）就不拓展了。

2. 经验总结

对于输出层：二分类任务一般选用Sigmoid输出，多分类任务一般选用Softmax输出，回归任务一般选用线性输出。
对于中间隐层：优先选择Relu激活函数（Relu可以有效解决Sigmoid和tanh出现的梯度弥散问题，且能更快收敛）。

三、防止过拟合

1. 数据集扩充

即增大训练集的规模，实在难以获得新数据也可以使用数据集增强的方法。

例如可以对图像数据集采用水平/垂直旋转/翻转、随机改变亮度和颜色、随机模糊图像、随机裁剪等方法进行数据集增强。

2. L1/L2正则化

正则化，就是在原来的loss function的基础上，加上了一些正则化项或者称为模型复杂度惩罚项。

以线性回归为例，优化目标：

min

加上L1正则项（lasso回归）：
min

加上L2正则项（岭回归）：

min

其中，L1范数更容易得到稀疏解（解向量中0比较多）；L2范数能让解比较小（靠近0），但是比较平滑（不等于0）。

3. Dropout

Dropout提供了一个简单的方法来提升性能。其实相当于做简单的Ensemble，但训练速度会慢一些。

4. 提前终止Early stopping

5. 交叉验证

剩下就是选择合适的模型和网络结构了，甚至可以采用多模型融合等思路。

四、防止梯度消失/爆炸

1. 使用合适的激活函数：ReLU等

解决Sigmoid函数存在的梯度消失/爆炸问题。

2. 预训练加微调：DBN等

Hinton为了解决梯度的问题，提出采取无监督逐层训练方法，其基本思想是每次训练一层隐节点，训练时将上一层隐节点的输出作为输入，而本层隐节点的输出作为下一层隐节点的输入，此过程就是逐层“预训练”。在预训练完成后，再对整个网络进行“微调”。

3. 梯度剪切、正则

梯度剪切这个方案主要是针对梯度爆炸提出的，其思想是设置一个梯度剪切阈值，然后更新梯度的时候，如果梯度超过这个阈值，那么就将其强制限制在这个范围之内。另外一种解决梯度爆炸的手段是采用权重正则化，比较常见的是L1正则和L2正则，以上已经提到了。

4. Batch Normalization

对每一层的输出做scale和shift的方法，通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到接近均值为0方差为1的标准正太分布，即严重偏离的分布强制拉回比较标准的分布。这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，使得让梯度变大，避免梯度消失问题产生。而且梯度变大意味着学习收敛速度快，能大大加快训练速度。