2021-06-09 16:49 已编辑上海电力大学 Java

关注

Deep Learning Note3

偏差与方差

欠拟合（在训练集中模型表现差）：偏差大。解决方案：

增加隐藏层数量
增加循环次数

过拟合（在训练集中模型表现好，但是在测试集中表现差）：方差大解决方案：

获取更多数据
正则化

Regularization（正则化）

用于解决过拟合问题，加在损失函数上

$Regular_J(w,b)=J(w,b)+\frac{λ}{2m}*||w||^2_2$ $Regular_J(w_1,b_1,...,w_n,b_n)=\frac{1}{m}L(y_pre,y_act)+\frac{λ}{2m}\sum_{l=1}^n||w_l||^2_F$

正则表达式下标表示正则化类型

Frobenius norm正则化
$ $||w||_F^2 = w中每个元素平方的求和$ $L2正则化$ $||w||_2^2 = w^Tw$ $L1正则化$ $||w||_2^2 =w中每个元素求和$ $

做反向传播时，w的导数为
$ $dW_n=(form-back)+\frac{λ}{m}W_n$ $原先的梯度更新：$ $W_n=W_n-a(form-back)$ $加了正则化的梯度更新后：$ $W_n=(1-α\frac{λ}{m})W_n-a(form-back)$ $
我们可以看出正则化相当于对原本的W做了衰减，弱化了W的权重，使得模型不会过分适配训练数据。

Dropout（随机失活）正则化

就是在神经网络的隐藏层，为每个神经元结点设置一个随机消除的概率，对保留下来的神经元进行训练，得到一个节点较少，规模较小的网络。

注意，是每次迭代随机失活，所以每次迭代时的模型是变换的。因此，它的实质就是每次迭代尝试不同的模型进行训练。

怎么做到不直接变动a的情况下，实现随机失活的呢？需要额外定义一个维度等同a的数组，用0，1表示是否失活

    keep_prob = 0.8  # 设置神经元保留概率
    d3 = np.random.rand(a3.shape[0], a3.shape[1]) #随机失活概率矩阵初始化
    d3= d3< keep_prob #大于0.8的设置为0，小于0.8的设置为1
    a3 = np.multiply(a3, d3)  #与输入值a相乘，得到了随机失活后的输入值
    a3 /= keep_prob    #为了不影响计算的Z值，需要除以一个keep_prob

反向传播

需要在正向传播时，缓存概率矩阵，反向传播时，用dA乘以概率矩阵。

思考：神经节点随机失活，为什么不将得到的概率矩阵乘以权重w，而是乘以了输入值a？

归一（正则）化输入

过程：

计算所有样本每个特征的均值
减去均值得到相对对称的分布
再将特征值归一（正则）化输入： $σ^2=\frac{1}{m}\sum_{i=1}^mx^2$ $x=\frac{x}{σ^2}$

原因:

因为我们使用的激活函数的区间一般在[-1,1]，而以tanh为例，但z位于[-1，1]区间时，下降梯度较为平稳。
使用了归一化，那么无论从哪个位置开始迭代，我们都能以相对很少的迭代次数找到全局最优解。

梯度爆炸和梯度消失

梯度消失的直观体现
$ $\frac{∂J}{w1}=\frac{∂J}{a_n}σ'(a_n)w_nσ'(a_{n-1})w_{n-1}...σ'(a_1)w_1$ $

$\frac{∂J}{w1}=\frac{∂J}{a_n}σ'(a_n)σ'(a_{n-1})σ'(a_1)...w_nw_{n-1}...w_1$

当 $w_n$ 范围在0~1之间时，不断相乘导致得到的dw越来越小。会引起梯度下降的程度指数级下降。
当 $w_n$ 范围在>1时，不断相乘导致得到的dw越来越小。会引起梯度下降的程度指数级上升。

利用初始化缓解梯度消失和爆炸问题

Min-Batch

将训练集分割为小一点的子训练集，步骤

对数据集进行随机洗牌,x要与y同步
切分数据集，可能数据集最后一部分无法分成等同大小
正常的正向反向传播，每次迭代一个min-batch

    ### 首先数据洗牌
    ### permutation随机排列一个序列
    permutation = list(np.random.permutation(m))
    ### x[:,n]表示在全部数组（维）中取第n个数据，
    shuffled_X = X[:, permutation]
    shuffled_Y = Y[:, permutation].reshape((1,m))
    ### math.floor()向下取整
    num_complete_minibatches = math.floor(m/mini_batch_size) 
    for k in range(0, num_complete_minibatches):

        mini_batch_X = shuffled_X[:, k*mini_batch_size : (k+1)*mini_batch_si***i_batch_Y = shuffled_Y[:, k*mini_batch_size : (k+1)*mini_batch_si***i_batch = (mini_batch_X, mini_batch_Y)
        mini_batches.append(mini_batch)

指数加权平均

即当前数据值加上一部分上一个数据值的权重，使得变化更加平稳
$ $v_t=βv_{t−1}+(1−β)θ_t$ $
v时加权后的前一个数据，θ时本身的数据

例：首先令 $v_0=0$ ，则 $v_1=0.9v_0+0.1θ_t$ ，代表求平均 $\frac{1}{0.1}=10$ 天的温度，若 $β=0.98$ ，则相当于求平均50天的数据，而刚开始的几十天的没有这么多的数据，所以统计的均值图像会往右平移一点。

在统计学中被称为加权移动平均值，这个移动就代表求取平均值的延迟

有一个式子：
$ $(1-ε)^{1-ε}=\frac{1}{e}$ $所以当ε=0.9时，$ \frac{1}{0.9}=10 $天后，那一天数据的权重下降到了$ \frac{1}{ε}*0.1$

指数加权平均的偏差修正

上一节讨论了加权均值存在延迟的问题，因为刚开始不存在那么多的数据，因此我们加强前几个数据的当日权重。

动量（Momentum）梯度下降法

在梯度下降的过程中，权重w的趋势往往是往最低方向逼近，而偏置量b则容易产生摆动。这时，如果设置教的的学习率，虽然可以加快w的下降逼近速度，但会导致b的震荡过大。而如果学习率国小，又会导致模型训练速度变慢。

基本思想就是计算梯度的指数加权平均数，并利用该梯度来更新权重。这种方式可以降低b的震荡，但不会加速w的下降。
$ $V_{dw}=βV_{dw}+(1-β)dw$ $V_{db}=βV_{db}+(1-β)db$ $W=W-aV_{dw}，b=b-aV_{db}$ $
思考：既然w和b逼近最低点的形式和速度不同，为什么不能给w和b设置不同的学习率？

下面的RMSprop就是将w，b采用了不同的学习率

RMS(均方根)prop梯度下降法

为了进一步优化损失函数在更新中存在摆动幅度过大的问题，并且进一步加快函数的收敛速度，RMSProp算法对权重 W 和偏置 b 的梯度使用了微分平方加权平均数。
$ $S_{dw}=βS_{dw}+(1−β)dW^2$ $

$S_{db}=βS_{db}+(1−β)db^2$

ε是一个极小的值一般为 $n*10^{-8}$ ,是为了防止分母过小

$W=W−dW\frac{α}{\sqrt{S_{dw}+ε}}$ $b=b−db\frac{α}{\sqrt{S_{db}+ε}}$

理解RMSprop作用：

实质是让w，b采用不同的学习率，因为db的平方很大，所以作为分母的 $S_{db}$ 会很大，使得db的学习率较小，而dW的平方较小，所以作为分母的 $S_{dW}$ 会很大，使得db的学习率较大，下降速度会更快。

但是如何S的值无效趋近于0时，会导致学习率过大，因此会加上一个常数ε，稳定学习率

注意：此处为了方便理解，例举了w，b，其实这样的做法也可以消除高维度下w1,w2……wn的摆动

思考：有了平均值，为什么要采用均方根？

均方根能更有效的反应数据的离散性。例如w：3，4，5，平均值为4；而b：4，-1，9，平均值也为4，这样就无法有效区分b的震荡情况。但是我认为，由于存在正负，假如b:-3，4，-5，求得的均方根依旧和3，4，5一样。有待优化

Adam 优化算法

Adam 优化算法的基本思想就是将 Momentum 和 RMSprop 结合起来形成的一种适用于不同深度学习结构的优化算法。 Momentum
$ $V_{dw}=βV_{dw}+(1-β)dw$ $V_{db}=βV_{db}+(1-β)db$ $RMSprop$ $S_{dw}=βS_{dw}+(1−β)dW^2$ $S_{db}=βS_{db}+(1−β)db^2$ $偏差修正$ $V_{dw}^{new}=\frac{V_{dw}}{1-β}$ $V_{db}^{new}=\frac{V_{db}}{1-β}$ $更新$ $W=W−V_{dw}^{new}\frac{α}{\sqrt{S_{dw}+ε}}$ $

$b=b−V_{db}^{new}\frac{α}{\sqrt{S_{db}+ε}}$

衰减学习率

随着w,b的不断更新，变化和震动也越来越小，所需要的学习率也越来越小，所以选哟根据迭代次数，不断衰减学习率。一般常用的公式
$ $a=\frac{1}{1+衰减率*迭代次数}*a_0$ $

全部评论

推荐最新楼层

02-05 14:48

济南大学 Java

杭州来未来日常实习一面

2024.9.25你负责项目的哪一个部分介绍一下项目项目中代理模式怎么用的你项目中用的是什么代理，jdk动态代理还是cglib动态代理jdk动态代理和cglib动态代理的区别如何对用户代码进行安全校验的什么是反射你的项目中哪里用到了反射说说IOC与AOP你刚刚说jdk代理是基于接口的，然后cglib是基于类还有接口的，那既然有了cglib可以基于类和接口，为什么还要有基于接口的jdk代理呢那我可以通过继承一个父类，然后再继承一个父类的方式来实现多个功能啊代理的话，可以代理私有的属性和方法吗你的索引是怎么设计的，比如说你这个项目中有没有遇到sql查的很慢的情况我看你提到了事务，你这个是Mysql...

查看23道真题和解析面筋（烤面筋）

点赞评论收藏

今天 16:12

南华大学 Java

26届Java找实习简历求助

双非一本投了两天被要了十几份简历，没一个约面，是简历有什么问题吗?

点赞评论收藏

2024-12-10 17:38

门头沟学院 Node.js

26届前端实习简历求点评

😭😭被挂麻了

想逆袭好楠：太紧凑了感觉，文字好多看的眼花，建议自我评价删了，因为自我评价都是吹嘘自己的，感觉没什么价值，然后改一下排版

点赞评论收藏

2024-12-09 11:16

已编辑

蚌埠坦克学院机电工程师

我被华为偷走的时光——我在华为这些年，爱信等！

21年大三，24年研二。纯整活。。。我请问了，如果我21年入职了，为什么我还去读研了？如果我读研了，那么我为什么入职了？？我很难受，因为我感觉有人偷走了我的人生。。。当然了，我知道自己小小2硕，肯定是去不了华为了，但是我愿意把我的面经发出来，只不过不在现在，或许是明天，或许是后天，或许是明年。时光啊时光，匆匆啊匆匆~#牛客创作赏金赛#

津輕：译文：本科入职过华为，然后又去读研了；研究生毕业继续面华为，感觉走了弯路；自己2硕可能不一定能过，但还是愿意分享面经。（4分）主题思想：作者借用三年前后面试华为的经历，对比表现了自己求职境遇的不同，表达了选择读研的犹豫和读研就业后的希望（2分）；同时以小见大，表述了时代变迁中就业形势的恶化，暗含了自己对当今就业形势的担忧（2分）；在文章的最后，作者希望自己能够发布面经以帮助更多求职者，突出展示了作者的博大胸襟与作者心中对求职者们的鼓励与期望。（2分）（其他答案言之有理可酌情给分）

牛客创作赏金赛

点赞评论收藏