《深度学习入门》第4章-神经网络的学习
一、从数据中学习
神经网络的学习,是指从训练数据中自动获取最优权重参数的过程,学习的目的以损失函数为基准,找出能使它的值达到最小的权重参数,为了找出尽可能小的损失函数的值,本章介绍了利用函数斜率的梯度法。
二、损失函数
损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:
其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面的Φ是正则化项(regularizer)或者叫惩罚项(penalty term),它可以是L1,也可以是L2,或者其他的正则函数。整个式子表示的意思是找到使目标函数最小时的θ值。下面主要列出几种常见的损失函数。
1、对数损失函数
Log损失函数的标准形式:
损失函数L(Y, P(Y|X))表达的是样本X在分类Y的情况下,使概率P(Y|X)达到最大值(换言之,就是利用已知的样本分布,找到最有可能(即最大概率)导致这种分布的参数值;或者说什么样的参数才能使我们观测到目前这组数据的概率最大)。因为log函数是单调递增的,所以logP(Y|X)也会达到最大值,因此在前面加上负号之后,最大化P(Y|X)就等价于最小化L了。
2、平方损失函数
平方损失(Square loss)的标准形式如下:
Y-f(X)表示的是残差,整个式子表示的是残差的平方和,而我们的目的就是最小化这个目标函数值(注:该式子未加入正则项),也就是最小化残差的平方和(residual sum of squares,RSS)。
而在实际应用中,通常会使用均方差(MSE)作为一项衡量指标,公式如下:
3、指数损失函数
学过Adaboost算法的人都知道,它是前向分步加法算法的特例,是一个加和模型,损失函数就是指数函数。在Adaboost中,经过m此迭代之后,可以得到:
Adaboost每次迭代时的目的是为了找到最小化下列式子时的参数α和G:
而指数损失函数(exp-loss)的标准形式如下:
三、数值微分
数值微分法是根据导数的原始定义:
那么只要h hh取很小的数值,比如0.0001,那么我们可以很方便求解导数,并且可以对用户隐藏求解过程,用户只要给出目标函数和要求解的梯度的变量,程序可以自动给出相应的梯度,这也是某种意义上的“自动微分”😃。不幸的是,数值微分法计算量太大,求解速度是这四种方法中最慢的,更加雪上加霜的是,它引起的roundoff error和truncation error使其更加不具备实际应用场景,为了弥补缺点,便有如下center difference approximation:
可惜并不能完全消除truncation error,只是将误差减小。虽然数值微分法有如上缺点,但是由于它实在是太简单实现了,于是很多时候,我们利用它来检验其他算法的正确性,比如在实现backprop的时候,我们用的"gradient check"就是利用数值微分法。
四、梯度
1、在训练机器学习模型寻找最优函数时,梯度下降(Gradient Descent)是最常用的优化(optimization)方法。在给定一组初始参数θ0θ0时,梯度下降算法能够顺着损失函数下降最快的方向逐步逼近最低点,也就是最佳参数θ∗θ∗的位置。
2、首先回顾一下梯度下降算法是如何工作的,我们的目标是找到θ∗θ∗:
θ∗=argminθL(θ)
其中LL是损失函数,梯度下降算法步骤如下:
随机选取一组初始参数θ0θ0。
计算损失函数在该点的偏导数∇L(θn−1)∇L(θn−1),也就是梯度。
更新参数θn=θn−1−η∇L(θn−1)θn=θn−1−η∇L(θn−1)。
重复2,3步骤,直至梯度不再下降(小于某个阈值范围)。
上面第3步中可以看到,每次我们顺着梯度的反方向更新θθ,其中ηη是学习速率,代表了每次更新的步伐大小。在只含有两个未知参数时,梯度下降的直观过程如下图:
五、小结
神经网络用训练数据进行学习,并用测试数据评价学习到的模型的泛化能力。神经网络的学习以损失函数为指标,更新权重参数,以使损失函数的值最小。利用某个给定的微小值的差分求导数的过程,称为数值微分。利用数值微分,可以计算权重函数的梯度。
#深度学习#