2018-11-08 10:38 已编辑中国海洋大学 C++

关注

【有书共读】《机器学习》读书笔记CH3-CH4

CH3线性模型

在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线的欧氏距离之和最小；

许多功能更为强大的非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得；

广义线性模型：g(.)为单调可微函数，y=g-1(wTx+b)称为广义线性模型，其中g(.)称为联系函数；

Logistics Regression就是一个被Sigmoid函数归一化后的广义线性模型；

线性判别分析（LDA）是一种经典的线性学习方法，又叫做Fisher判别分析；

多分类学习最经典的拆分策略有三种：一对一、一对其余、多对多；

类别不平衡问题：

欠采样：EasyEnsemble

过采样：SMOTE

再放缩（阈值移动）

过采样发不能简单地对初始正例样本进行重复采样，否则会招致严重的过拟合；

SMOTE：通过对训练集里的正例进行插值来产生额外的正例；

稀疏性问题本质对应了L0范数的优化，这在通常条件下是NP难问题。LASSO通过L1范数来近似L0范数，是求取稀疏解的重要技术；

代价敏感学习中研究最多的是基于类别的“误分类代价”；

已经证明，对二分类任务可以通过“再放缩”获得理论最优解；

在类别不平衡学习中通常是较小类的代缴更高，否则无需进行特殊处理；

多分类学习和多标记学习的区别

CH4 决策树

一般的，一颗决策树包含一个根节点。若干个内部节点和若干个叶节点。从根节点到每个叶节点的路径对应了一个判定测试序列；

决策树的生成是一个递归的过程。在决策树基本算法中，有三种情形会导致递归返回：

当前结点包含的样本全属于同一类别，无需划分

当前属性集为空，或是所有样本在所有属性值上的取值相同，无法划分

当前结点包含的样本集合为空，不能划分

决策树划分选择：

信息增益：对取值种类较多的特征有所偏好

信息增益率

基尼指数：从数据集D中随机取两个样本，其标记类别不一样的概率

剪枝：

预剪枝：不仅降低了过拟合的风险，还显著减少了决策树的训练时间开销和测试时间开销。但可能有欠拟合的风险

后剪枝：一般情况下，后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树。但其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多

连续值处理：二分法；

缺失值处理：先用未缺失样本进行划分，再将缺失样本以不同的概率划入到不同的子结点中；

决策树所形成的分类边界有一个明显的特点：轴平行，即它的分类边界由若干个与坐标轴平行的分段组成；

多变量决策树：非叶结点不再是仅对某个属性，而是对属性的线性组合进行测试；

剪枝方法和程度对决策时泛化性能的影响是相当显著的，有实验研究表明，在数据带有噪声时通过剪枝甚至可将决策树的泛化性能提高25%

#笔记##机器学习##读书笔记#

全部评论

推荐最新楼层

03-31 15:07

湖南大学 Java

字节二面还有机会吗

14.00开始自我介绍、介绍项目、深挖项目、少量八股之后突然说那我们开始写题吧LFU 先说了下思路他觉得没问题然后开写，中间有个方法写错了后面才发现，大概写了10分钟左右？到14.44还在写get()然后他突然说一般都是45分钟结束，说我写的代码思路看懂了，让我讲讲set()怎么写，我又重说了下他也觉得没问题，但是就是时间到了让我直接反问这种还有机会吗八股和项目都答上来了，自我感觉还行，就是这个手撕差太多了反问的时候面试官也说代码方面对结构体的操作不太熟练，佬们这种情况还有救吗我是真想当节孝子啊

字节跳动二面435人在聊

查看5道真题和解析

点赞评论收藏

03-28 21:48

广州灵犀互娱信息技术有限公司_游戏项目管理工程师(准入职员工)

灵犀互娱内推灵犀互娱内推

实习时候的真实感受~从面试就有被震撼到的公司环境，在cbd打工环境风景都超好的，下班的落日经常超级好看！！ 工资超级美丽，福利待遇也很好，而且每天没有考勤打卡这种事情的幸福谁懂啊！！！偶尔睡过头或者天气不好迟到一会一点影响都没有每天过着早十晚六的生活（其实也不是那么准时）而且从来没加过班！！ 感觉是运气很好来到了一个很好的部门，部门十几个人大家都非常和善部门氛围很好很好，leader很有趣很有意思几乎每周组里都有下午茶奶茶，组里帅哥美女又多大家也都非常非常好 以及有一个巨好的带教师兄虽然我也不是实习多丰富的人但我的带教师兄真的是我见过听过的mentor里最最最好的了！会额外教我们很多东西，也会...

阿里巴巴灵犀互娱公司氛围 123人发布

点赞评论收藏

03-25 18:02

门头沟学院移动开发

校招礼盒

拒绝了还是收到邮件了

客户端劝退第六人：情根深种啊，想让你回心转意

点赞评论收藏

02-10 20:34

西安电子科技大学自动化

实习简历这样写，还要改什么吗

漂亮的海豚在炒股：把西电加粗

简历互助

点赞评论收藏

03-31 19:00

腾讯_TEG_技术

下周必须给我一个实习生来面试

我没有啊啊啊啊我！要你们都扫码！！！

点赞评论收藏

招聘动态

米哈游

2025春季校园招聘

阿里大文娱

25届补录&26届实习

26届实习生双选会报名开启

满帮集团

2025春季校园招聘

联想

25届校招+26届实习

京东JDY实习生计划

火热招聘中

理想汽车

2025春季校园招聘

26届实习求职交流群

快手

25校招&26实习进行中

贝壳找房

2026届实习生招聘

全站热榜

创作者周榜

正在热议

# 毕业季，你想好怎么跟生活对线了吗？ #