《深度学习入门》第4章-神经网络的学习

一、从数据中学习

神经网络的学习，是指从训练数据中自动获取最优权重参数的过程，学习的目的以损失函数为基准，找出能使它的值达到最小的权重参数，为了找出尽可能小的损失函数的值，本章介绍了利用函数斜率的梯度法。

二、损失函数

损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子：
图片说明

其中，前面的均值函数表示的是经验风险函数，L代表的是损失函数，后面的Φ是正则化项（regularizer）或者叫惩罚项（penalty term），它可以是L1，也可以是L2，或者其他的正则函数。整个式子表示的意思是找到使目标函数最小时的θ值。下面主要列出几种常见的损失函数。

1、对数损失函数
Log损失函数的标准形式：
图片说明

损失函数L(Y, P(Y|X))表达的是样本X在分类Y的情况下，使概率P(Y|X)达到最大值（换言之，就是利用已知的样本分布，找到最有可能（即最大概率）导致这种分布的参数值；或者说什么样的参数才能使我们观测到目前这组数据的概率最大）。因为log函数是单调递增的，所以logP(Y|X)也会达到最大值，因此在前面加上负号之后，最大化P(Y|X)就等价于最小化L了。

2、平方损失函数
平方损失（Square loss）的标准形式如下：
图片说明

Y-f(X)表示的是残差，整个式子表示的是残差的平方和，而我们的目的就是最小化这个目标函数值（注：该式子未加入正则项），也就是最小化残差的平方和（residual sum of squares，RSS）。

而在实际应用中，通常会使用均方差（MSE）作为一项衡量指标，公式如下：
图片说明
3、指数损失函数
学过Adaboost算法的人都知道，它是前向分步加法算法的特例，是一个加和模型，损失函数就是指数函数。在Adaboost中，经过m此迭代之后，可以得到：

Adaboost每次迭代时的目的是为了找到最小化下列式子时的参数α和G：
图片说明
而指数损失函数(exp-loss）的标准形式如下：

三、数值微分

数值微分法是根据导数的原始定义：
图片说明
那么只要h hh取很小的数值，比如0.0001，那么我们可以很方便求解导数，并且可以对用户隐藏求解过程，用户只要给出目标函数和要求解的梯度的变量，程序可以自动给出相应的梯度，这也是某种意义上的“自动微分”😃。不幸的是，数值微分法计算量太大，求解速度是这四种方法中最慢的，更加雪上加霜的是，它引起的roundoff error和truncation error使其更加不具备实际应用场景，为了弥补缺点，便有如下center difference approximation：
图片说明
可惜并不能完全消除truncation error，只是将误差减小。虽然数值微分法有如上缺点，但是由于它实在是太简单实现了，于是很多时候，我们利用它来检验其他算法的正确性，比如在实现backprop的时候，我们用的"gradient check"就是利用数值微分法。

四、梯度

1、在训练机器学习模型寻找最优函数时，梯度下降（Gradient Descent）是最常用的优化（optimization）方法。在给定一组初始参数θ0θ0时，梯度下降算法能够顺着损失函数下降最快的方向逐步逼近最低点，也就是最佳参数θ∗θ∗的位置。
2、首先回顾一下梯度下降算法是如何工作的，我们的目标是找到θ∗θ∗：
θ∗=argminθL(θ)
其中LL是损失函数，梯度下降算法步骤如下：

随机选取一组初始参数θ0θ0。
计算损失函数在该点的偏导数∇L(θn−1)∇L(θn−1)，也就是梯度。
更新参数θn=θn−1−η∇L(θn−1)θn=θn−1−η∇L(θn−1)。
重复2，3步骤，直至梯度不再下降（小于某个阈值范围）。
上面第3步中可以看到，每次我们顺着梯度的反方向更新θθ，其中ηη是学习速率，代表了每次更新的步伐大小。在只含有两个未知参数时，梯度下降的直观过程如下图：