闲敲code落灯花

2020-12-17 17:47 已编辑上海交通大学算法工程师

关注

从CART到GBDT到LightGBM

参考 https://zhuanlan.zhihu.com/p/128472955

cart树

空间分割思想的由来

一些学者采用类似随机投影的思路，将自变量的取值空间切分为若干个碎块，并假设这个空间碎块内的所有样本的因变量取值接近(甚至相同)——在这种思想的指导下，出现了一种非常经典的回归模型，即CART回归树。

cart决策树的构建思想

决策树认为，物以类聚、人以群分，在特征空间里相近的样本，那就是一类。如果为每个“类”分配的空间范围比较小，那么，同一个类内的样本差异会非常小，以至于看起来一样。换句话说，如果我们可以将特征空间切分为较小的碎块，然后为每一个碎块内的样本配置一个统一的因变量取值，就有机会做出误差较小的预测。

cart决策树需要解决的两个问题

如何分割特征空间
如何为不同空间设置因变量取值

针对离散值的分类决策树：如ID3 C4.5
针对连续值的分类决策树: CART树：
在构建CART树的时候，我们遍历所有特征的所有取值 ——以这个特征的这个取值为分割依据、得到两组样本和，然后计算对这两组样本的预测误差。遍历完毕后，选取预测误差最小的那一个特征的取值。

这里有一个问题：“预测误差”哪来的？基于预测值和真实值算出来的。“预测值”哪儿来的？需要一个计算方法。为了使MSE最小，一般以一组样本的输出值的均值作为预测值

CART分类树和CART回归树的思想和逻辑结构是相同的，二者的主要区别是:样本分组时，CART分类树评价(特征，取值)的质量指标为gini系数，CART回归树为MSE。

GBDT

参考https://zhuanlan.zhihu.com/p/144855223

主要思想

用第K个CART拟合前k-1个CART留下的残差，从而不断的缩小整个模型的误差

前k个CART的预测值：
最优化目标函数
【带一点泛函】将目标函数对另一个函数(即前k-1个CART组成的模型)求偏导，得函数更新公式：
采用残差平方和作为目标函数：
（3-3）
由（3-1）（3-2）（3-3）：

这就解释了为什么GBDT是在拟合残差
GBDT里，我们需要将目标函数对另一个函数(即前k-1个CART组成的模型)求偏导，进而基于梯度得到一棵CART(即第k课CART)的学习目标——这是理解GBDT的主要难关

LightGBM

特性

leafwise生长策略：每次只选择增益最大的节点进行分裂。
对比的是level wise，level wise是分裂时将决策树中当前层的所有节点都进行分裂，其中可能有部分增益其实并不大。
调参方法

参考
https://www.cnblogs.com/bjwu/p/9307344.html
https://blog.csdn.net/u012735708/article/details/83749703
nums_leaves参数：
num_leaves. 这是控制树模型复杂性的重要参数。理论上，我们可以通过设定num_leaves = 2^(max_depth) 去转变成为depth-wise tree。但这样容易过拟合，因为当这两个参数相等时, leaf-wise tree的深度要远超depth-wise tree。因此在调参时，往往会把 num_leaves的值设置得小于2^(max_depth)。例如当max_depth=6时depth-wise tree可以有个好的准确率，但如果把 num_leaves 设成 127 会导致过拟合，要是把这个参数设置成 70或 80 却有可能获得比depth-wise tree有更好的准确率。

GBDT Xgboost Lightgbm之间的比较

参考https://zhuanlan.zhihu.com/p/148050748

全部评论

推荐最新楼层

07-02 14:00

门头沟学院机械工程师

27届鼠鼠找暑期实习被骂履历太差

不知道为什么对实习生这么不友好，一般我们这种学生都挺老实本分的吧，小作坊就是小作坊

点赞评论收藏

分享

07-01 12:02

华东师范大学 Web前端

26届秋招我让AI预测

看完尸体暖暖的

预测一下26届秋招形势

点赞评论收藏

分享

06-06 11:26

已编辑

昆明学院 Java

26届二本找实习，求拷打

感觉还是学了很多的，自己也花很长时间做了一个项目，写了一个编程平台，没把握找实习的时间，最近才开始，太晚了😫

实习，投递多份简历没人回...

点赞评论收藏

分享

07-03 17:58

门头沟学院机械结构工程师

祝您找到合适的人选，肯定不是我😊

哈哈哈离谱

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你觉得实习能学到东西吗 #

31107次浏览 632人参与

# 机械人集合！你是什么工程师？ #

15365次浏览 89人参与

# 现代汽车前瞻技术研发急速编程挑战赛 #

26021次浏览 212人参与

# 秋招什么时候开投比较合适？ #

19167次浏览 275人参与

# 发工资后，你做的第一件事是什么 #

67590次浏览 229人参与

# 如何准备秋招 #

18177次浏览 350人参与

# 百度工作体验 #

219389次浏览 1958人参与

# 机械人与华为的爱恨情仇 #

116234次浏览 942人参与

# 工作中哪个瞬间让你想离职 #

25480次浏览 177人参与

# 硬件应届生薪资是否普遍偏低？ #

73621次浏览 514人参与

# 不考虑转正，实习多久合适 #

31610次浏览 145人参与

# 影石Insta360求职进展汇总 #

123152次浏览 1069人参与

# 通信和硬件还有转码的必要吗 #

57281次浏览 526人参与

# 24届的你们都什么时候入职？ #

59984次浏览 424人参与

# 面试被问期望薪资时该如何回答 #

256022次浏览 1479人参与

# 实习，不懂就问 #

42034次浏览 643人参与

# 你们公司几号发工资 #

20554次浏览 139人参与

# 软开人，秋招你打算投哪些公司呢 #

102466次浏览 958人参与

# 每个月的工资都是怎么分配的？ #

25241次浏览 408人参与

# 如果你有一天可以担任公司的CEO，你会做哪三件事？ #

29018次浏览 460人参与

# 你觉得现在还能进互联网吗？ #

7564次浏览 130人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务