【有书共读】《机器学习》读书笔记CH3-CH4
CH3线性模型
在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线的欧氏距离之和最小;
许多功能更为强大的非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得;
广义线性模型:g(.)为单调可微函数,y=g-1(wTx+b)称为广义线性模型,其中g(.)称为联系函数;
Logistics Regression就是一个被Sigmoid函数归一化后的广义线性模型;
线性判别分析(LDA)是一种经典的线性学习方法,又叫做Fisher判别分析;
多分类学习最经典的拆分策略有三种:一对一、一对其余、多对多;
类别不平衡问题:
欠采样:EasyEnsemble
过采样:SMOTE
再放缩(阈值移动)
过采样发不能简单地对初始正例样本进行重复采样,否则会招致严重的过拟合;
SMOTE:通过对训练集里的正例进行插值来产生额外的正例;
稀疏性问题本质对应了L0范数的优化,这在通常条件下是NP难问题。LASSO通过L1范数来近似L0范数,是求取稀疏解的重要技术;
代价敏感学习中研究最多的是基于类别的“误分类代价”;
已经证明,对二分类任务可以通过“再放缩”获得理论最优解;
在类别不平衡学习中通常是较小类的代缴更高,否则无需进行特殊处理;
多分类学习和多标记学习的区别
CH4 决策树
一般的,一颗决策树包含一个根节点。若干个内部节点和若干个叶节点。从根节点到每个叶节点的路径对应了一个判定测试序列;
决策树的生成是一个递归的过程。在决策树基本算法中,有三种情形会导致递归返回:
当前结点包含的样本全属于同一类别,无需划分
当前属性集为空,或是所有样本在所有属性值上的取值相同,无法划分
当前结点包含的样本集合为空,不能划分
决策树划分选择:
信息增益:对取值种类较多的特征有所偏好
信息增益率
基尼指数:从数据集D中随机取两个样本,其标记类别不一样的概率
剪枝:
预剪枝:不仅降低了过拟合的风险,还显著减少了决策树的训练时间开销和测试时间开销。但可能有欠拟合的风险
后剪枝:一般情况下,后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树。但其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多
连续值处理:二分法;
缺失值处理:先用未缺失样本进行划分,再将缺失样本以不同的概率划入到不同的子结点中;
决策树所形成的分类边界有一个明显的特点:轴平行,即它的分类边界由若干个与坐标轴平行的分段组成;
多变量决策树:非叶结点不再是仅对某个属性,而是对属性的线性组合进行测试;
剪枝方法和程度对决策时泛化性能的影响是相当显著的,有实验研究表明,在数据带有噪声时通过剪枝甚至可将决策树的泛化性能提高25%
#笔记##机器学习##读书笔记#