学习曲线、机器学习系统的设计

关键词

学习曲线、偏差方差诊断法、误差分析、机器学习系统的数值评估、大数据原理

概要

本周内容分为两讲：

第一讲.Advice for applying machine learning,主要内容是关于偏差、方差以及学习曲线为代表的诊断法，为改善机器学习算法的决策提供依据；

第二讲.Machine learning system design,主要内容是机器学习算法的数值评估标准：准确率(交叉验证集误差)、查准率precision、召回率recall以及F值，给出了机器学习系统的设计流程.

==============================第一讲==============================

========= 关于偏差、方差以及学习曲线为代表的诊断法 ==========

(一)模型选择Model selection

在评估假设函数时，我们习惯将整个样本按照6:2:2的比例分割：60%训练集training set、20%交叉验证集cross validation set、20%测试集test set，分别用于拟合假设函数、模型选择和预测。

三个集合对应的误差如下图所示(注意没有不使用正则化项)：

基于以上划分，我们有模型选择的三个步骤：

step1.用测试集training set对多个模型(比如直线、二次曲线、三次曲线)进行训练；

step2.用交叉验证集cross validation set验证step1得到的多个假设函数，选择交叉验证集误差最小的模型；

step3.用测试集test set对step2选择的最优模型进行预测；

以线性回归为例，假设你利用线性回归模型最小化代价函数J(θ)求解得到一个假设函数h(x)，如何判断假设函数对样本的拟合结果是好是坏，是不是说所有点都经过(代价函数J最小)一定是最理想的？

或者这样说，给你下图的样本点，你是选择直线、二次曲线、还是三次曲线......作为假设函数去拟合呢？

以下图为例，你的模型选取其实直接关系到最终的拟合结果：

=======================================

欠拟合Underfit || 高偏差High bias

正常拟合Just right || 偏差和方差均较小

过拟合Overfit || 高方差High variance

=======================================

★★★以上问题只是模型选择过程中需要考虑的一点------多项式次数d，实际上，我们还会去考虑这样两个参数：正则化参数λ、样本量m.

下面我将从多项式次数d、正则化参数λ、样本量m这三个量与拟合结果之间的关系做一个简单的概括.

(二)偏差、方差、学习曲线Bias、Variance、Learning curve

1.特征量的度d

还是之前的例子，用二次曲线拟合，训练集和交叉验证集的误差可能都很小；但是你用一条直线去拟合，不管使用多高级的算法去减小代价函数，偏差仍然是很大的，这时候我们就说：多项式次数d过小，导致高偏差、欠拟合；类似的当用10次曲线去拟合，样本点都能经过，对应的代价函数(误差)为0，但是带入交叉验证集你会发现拟合很差，这时候我们说：多项式次数d过大，导致高方差、过拟合。

所以，多项式次数d与训练集、交叉验证集误差的关系如下图：