2018-11-08 10:38 已编辑中国海洋大学 C++

关注

【有书共读】《机器学习》读书笔记CH3-CH4

CH3线性模型

在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线的欧氏距离之和最小；

许多功能更为强大的非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得；

广义线性模型：g(.)为单调可微函数，y=g-1(wTx+b)称为广义线性模型，其中g(.)称为联系函数；

Logistics Regression就是一个被Sigmoid函数归一化后的广义线性模型；

线性判别分析（LDA）是一种经典的线性学习方法，又叫做Fisher判别分析；

多分类学习最经典的拆分策略有三种：一对一、一对其余、多对多；

类别不平衡问题：

欠采样：EasyEnsemble

过采样：SMOTE

再放缩（阈值移动）

过采样发不能简单地对初始正例样本进行重复采样，否则会招致严重的过拟合；

SMOTE：通过对训练集里的正例进行插值来产生额外的正例；

稀疏性问题本质对应了L0范数的优化，这在通常条件下是NP难问题。LASSO通过L1范数来近似L0范数，是求取稀疏解的重要技术；

代价敏感学习中研究最多的是基于类别的“误分类代价”；

已经证明，对二分类任务可以通过“再放缩”获得理论最优解；

在类别不平衡学习中通常是较小类的代缴更高，否则无需进行特殊处理；

多分类学习和多标记学习的区别

CH4 决策树

一般的，一颗决策树包含一个根节点。若干个内部节点和若干个叶节点。从根节点到每个叶节点的路径对应了一个判定测试序列；

决策树的生成是一个递归的过程。在决策树基本算法中，有三种情形会导致递归返回：

当前结点包含的样本全属于同一类别，无需划分

当前属性集为空，或是所有样本在所有属性值上的取值相同，无法划分

当前结点包含的样本集合为空，不能划分

决策树划分选择：

信息增益：对取值种类较多的特征有所偏好

信息增益率

基尼指数：从数据集D中随机取两个样本，其标记类别不一样的概率

剪枝：

预剪枝：不仅降低了过拟合的风险，还显著减少了决策树的训练时间开销和测试时间开销。但可能有欠拟合的风险

后剪枝：一般情况下，后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树。但其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多

连续值处理：二分法；

缺失值处理：先用未缺失样本进行划分，再将缺失样本以不同的概率划入到不同的子结点中；

决策树所形成的分类边界有一个明显的特点：轴平行，即它的分类边界由若干个与坐标轴平行的分段组成；

多变量决策树：非叶结点不再是仅对某个属性，而是对属性的线性组合进行测试；

剪枝方法和程度对决策时泛化性能的影响是相当显著的，有实验研究表明，在数据带有噪声时通过剪枝甚至可将决策树的泛化性能提高25%

#笔记##机器学习##读书笔记#

全部评论

推荐最新楼层

03-10 16:55

重庆邮电大学前端工程师

前端菜鸡的找实习心路历程

写在最前：帖主是重邮某边缘擦边计算机专业的鼠鼠，终于结束了暑期实习的面试，又要进入一个新的阶段了，离职前有感而发写点东西，只是记录自己大半年来的一些所见所闻，希望可以给大家做一些参考。 首先鼠鼠是一个从进入大学就开始学前端的前端老兵了，虽然大一没认真学，但是还是了解了基本的三件套，并且确定了就是要在本科毕业就就业了，所以在大二学的比较多，基本在第一段实习之前完成leetcode150+和常见的手写题目的练习。 然后时间就转眼到了大二下要找第一段实习的时候了，那会我是身边人里面开始的最早的，大概从大二下的4月份就陆陆续续开始了一些面试，不过让鼠鼠打击比较大的是第一段实习 中大厂全军覆没，包括但不...

你找实习最大的坎坷是什么

点赞评论收藏

03-10 08:38

北京邮电大学嵌入式工程师

车企三年的总结,学什么怎么学？

现在的车企行业还是未来可期的，比如那几个销量比较高的车企，小米、小鹏、理想，我觉得他们几个比较靠谱1.编程语言C语言基础语法结构体/枚举/位操作函数、指针（重要）、内存管理C++C++基础面向对象特性（抽象、类、封装、继承、多态）模板、泛型、STL、新特性学习资料：黑马程序员+实际项目实践2.计算机基础知识4.2.1、数据结构与算法字符串、栈、队列、链表、堆、树、队列、数组、哈希表等算法：查找、排序经典算法思想（动态规划、回溯等）学习资料：《代码随想录》、《hot 100》、《hello 算法》3.操作系统原理内存管理和调度多任务：多线程/并发/线程I/O原理文件管理学习资料：王道考研4.计算...

点赞评论收藏

03-03 12:55

北京交通大学 Java

简历+boss打招呼

为啥约不到面试啊😭😭😭是我的简历问题，还是打招呼有问题大佬们，能帮忙看看简历吗？

点赞评论收藏

03-02 20:23

门头沟学院前端工程师

双非前端简历、实习

小登想找暑期实习，日常也想找，求拷打，不玻璃心，把我当m就好。如果找不到实习的话，哦内该…

没有奇迹的世界：简直世另我一样的先学后端再转前端一样的简历模板绷不住了甚至描述都这么像值得庆幸的是你才28届加油

点赞评论收藏

03-08 19:26

杭州电子科技大学大数据开发工程师

死磕大厂还是退而求其次？

首先，一份实习可以给你带来什么？1、一份实习经历2、获得一个可以写在简历四上的实习项目如果是面大厂，其实小厂实习对履历加分不多，但是对于面小公司，特别是外包公司，那么小厂实习，还是可以加不少分数，毕竟小公司希望你进去后能够尽快去干活，而实习经历，证明你干活过，上手可以快一些。而对于第二个东西，存在很多不确定性，比如可能用的技术栈偏门，老旧;又比如让你干很杂的事情，甚至让你写文档;又比如加班特别严重，压的你没时间学习其他，等等。也就是说，对于第二点，是存在很多不确定性的，你去之前最好是问一问吧，最好的结果我觉得就是技术栈匹配+能让你做项目，写写接口也行，这样你还能把这事写简历上(如何实习收益最大...

小厂一定不能去吗？

点赞评论收藏

招聘动态

厦门银行

2026届春季校园招聘

联想

26届补录&27届暑期实习

携程集团

2026年春季校园招聘

AI网申助手

网申字段一键填写

贝壳找房

2026届春季校园招聘

恒生电子

2026届春季校园招聘

网易游戏雷火

27届精英实习&26届补招开启！

EA China

2026校园新锐招聘计划

搜狐畅游

26届春招火热进行中

OPPO

2027届寻梦实习招聘

全站热榜

美团笔试

热聊中

米哈游笔试

热聊中

创作者周榜

正在热议

# 虽然0面试，但今天___，夸夸自己 #

8207次浏览 167人参与

# 米哈游笔试 #

547977次浏览 1066人参与

# 春招 / 实习投递，你最焦虑的一件事 #

51172次浏览 1003人参与

# vivo笔试 #

12868次浏览 122人参与

# AI岗位暴涨12倍，你会转AI赛道吗？ #

# 金三银四，你的春招进行到哪个阶段了？ #