有书共读46:《统计学习方法(第2版)》笔记1
1. 统计学习概述
(1)概念:统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测分析的学科。
(2)特点:
a. 建立在计算机与网络上的;
b. 以数据为研究对象;
c. 目的是对数据进行预测与分析;
d. 以方法为中心,构建模型;
e. 涉及概率论、统计学、计算机等的交叉学科
(3)方法:监督学习、非监督学习、半监督学习和强化学习等
(4)步骤:
a. 得到一个有限的训练数据集合;
b. 确定包含所有可能的模型的假设空间,即学习模型的集合;
c. 确定模型选则的准则,即策略;
d. 实现求解最优模型的算法,即算法;
e. 选择最优的算法;
f. 利用最优模型对新数据进行预测或分析。
2. 统计学习三要素:
统计学习方法 = 模型 + 策略 + 算法
(1)模型:要学习的条件概率分布或决策函数
(2)策略:选择最优模型的准则
a. 损失函数:预测错误程度的度量,损失函数值越小,模型越好
绝对损失函数:
对数损失函数:
b. 风险函数(期望损失):即损失函数的期望
这是模型f(X)关于联合分布P(X,Y)的平均意义下的损失,称为风险函数或损失函数。
学习的目标就是选择期望风险最小的模型,但由于联合分布P(X,Y)未知,R不能直接计算。
c. 经验风险(经验损失函数):模型关于训练集(训练样本)的平均损失
期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练集样本的平均损失,根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险,所以可以用经验风险估计期望风险,但由于样本量不足,需要对经验风险进行校正,常用的策略是经验风险最小化和结构风险最小化。
由上式可知,经验风险最小化就是求解优化下式:
当样本容量足够大时,经验风险最小化能保证很好的效果,在实际中被广泛采用,比如极大似然估计就是一个例子;当模 型是条件概率分布,损失函数是对数函数时,经验风险最小化就等价于极大似然估计;而当样本量很小时,会产生过拟合结构风险最小化就是防止过拟合的策略,它是在经验风险上加了表示模型复杂度的正则化项,定义如下:
模型越复杂,复杂度函数J(f)就越大,反之则越小,复杂度表示了对复杂模型的惩罚;结构风险小需要经验风险与模型复 杂度同时小,结构风险小的模型往往对训练数据及未知的测试集都有较好的预测。贝叶斯估计中的最大后验概率估计就是结构风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时结构风险最小化就等价于最大后验概率估计。
(3)算法:学习模型的具体计算方法,通常为最优化问题的求解
#笔记##读书笔记##机器学习#
(1)概念:统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测分析的学科。
(2)特点:
a. 建立在计算机与网络上的;
b. 以数据为研究对象;
c. 目的是对数据进行预测与分析;
d. 以方法为中心,构建模型;
e. 涉及概率论、统计学、计算机等的交叉学科
(3)方法:监督学习、非监督学习、半监督学习和强化学习等
(4)步骤:
a. 得到一个有限的训练数据集合;
b. 确定包含所有可能的模型的假设空间,即学习模型的集合;
c. 确定模型选则的准则,即策略;
d. 实现求解最优模型的算法,即算法;
e. 选择最优的算法;
f. 利用最优模型对新数据进行预测或分析。
2. 统计学习三要素:
统计学习方法 = 模型 + 策略 + 算法
(1)模型:要学习的条件概率分布或决策函数
(2)策略:选择最优模型的准则
a. 损失函数:预测错误程度的度量,损失函数值越小,模型越好
0-1损失函数:
平方损失函数:
对数损失函数:
b. 风险函数(期望损失):即损失函数的期望
这是模型f(X)关于联合分布P(X,Y)的平均意义下的损失,称为风险函数或损失函数。
学习的目标就是选择期望风险最小的模型,但由于联合分布P(X,Y)未知,R不能直接计算。
c. 经验风险(经验损失函数):模型关于训练集(训练样本)的平均损失
期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练集样本的平均损失,根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险,所以可以用经验风险估计期望风险,但由于样本量不足,需要对经验风险进行校正,常用的策略是经验风险最小化和结构风险最小化。
由上式可知,经验风险最小化就是求解优化下式:
当样本容量足够大时,经验风险最小化能保证很好的效果,在实际中被广泛采用,比如极大似然估计就是一个例子;当模 型是条件概率分布,损失函数是对数函数时,经验风险最小化就等价于极大似然估计;而当样本量很小时,会产生过拟合结构风险最小化就是防止过拟合的策略,它是在经验风险上加了表示模型复杂度的正则化项,定义如下:
模型越复杂,复杂度函数J(f)就越大,反之则越小,复杂度表示了对复杂模型的惩罚;结构风险小需要经验风险与模型复 杂度同时小,结构风险小的模型往往对训练数据及未知的测试集都有较好的预测。贝叶斯估计中的最大后验概率估计就是结构风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时结构风险最小化就等价于最大后验概率估计。
(3)算法:学习模型的具体计算方法,通常为最优化问题的求解
#笔记##读书笔记##机器学习#