闲敲code落灯花

2020-12-17 17:47 已编辑上海交通大学算法工程师

关注

从CART到GBDT到LightGBM

参考 https://zhuanlan.zhihu.com/p/128472955

cart树

空间分割思想的由来

一些学者采用类似随机投影的思路，将自变量的取值空间切分为若干个碎块，并假设这个空间碎块内的所有样本的因变量取值接近(甚至相同)——在这种思想的指导下，出现了一种非常经典的回归模型，即CART回归树。

cart决策树的构建思想

决策树认为，物以类聚、人以群分，在特征空间里相近的样本，那就是一类。如果为每个“类”分配的空间范围比较小，那么，同一个类内的样本差异会非常小，以至于看起来一样。换句话说，如果我们可以将特征空间切分为较小的碎块，然后为每一个碎块内的样本配置一个统一的因变量取值，就有机会做出误差较小的预测。

cart决策树需要解决的两个问题

如何分割特征空间
如何为不同空间设置因变量取值

针对离散值的分类决策树：如ID3 C4.5
针对连续值的分类决策树: CART树：
在构建CART树的时候，我们遍历所有特征的所有取值 ——以这个特征的这个取值为分割依据、得到两组样本和，然后计算对这两组样本的预测误差。遍历完毕后，选取预测误差最小的那一个特征的取值。

这里有一个问题：“预测误差”哪来的？基于预测值和真实值算出来的。“预测值”哪儿来的？需要一个计算方法。为了使MSE最小，一般以一组样本的输出值的均值作为预测值

CART分类树和CART回归树的思想和逻辑结构是相同的，二者的主要区别是:样本分组时，CART分类树评价(特征，取值)的质量指标为gini系数，CART回归树为MSE。

GBDT

参考https://zhuanlan.zhihu.com/p/144855223

主要思想

用第K个CART拟合前k-1个CART留下的残差，从而不断的缩小整个模型的误差

前k个CART的预测值：
最优化目标函数
【带一点泛函】将目标函数对另一个函数(即前k-1个CART组成的模型)求偏导，得函数更新公式：
采用残差平方和作为目标函数：
（3-3）
由（3-1）（3-2）（3-3）：

这就解释了为什么GBDT是在拟合残差
GBDT里，我们需要将目标函数对另一个函数(即前k-1个CART组成的模型)求偏导，进而基于梯度得到一棵CART(即第k课CART)的学习目标——这是理解GBDT的主要难关

LightGBM

特性

leafwise生长策略：每次只选择增益最大的节点进行分裂。
对比的是level wise，level wise是分裂时将决策树中当前层的所有节点都进行分裂，其中可能有部分增益其实并不大。
调参方法

参考
https://www.cnblogs.com/bjwu/p/9307344.html
https://blog.csdn.net/u012735708/article/details/83749703
nums_leaves参数：
num_leaves. 这是控制树模型复杂性的重要参数。理论上，我们可以通过设定num_leaves = 2^(max_depth) 去转变成为depth-wise tree。但这样容易过拟合，因为当这两个参数相等时, leaf-wise tree的深度要远超depth-wise tree。因此在调参时，往往会把 num_leaves的值设置得小于2^(max_depth)。例如当max_depth=6时depth-wise tree可以有个好的准确率，但如果把 num_leaves 设成 127 会导致过拟合，要是把这个参数设置成 70或 80 却有可能获得比depth-wise tree有更好的准确率。

GBDT Xgboost Lightgbm之间的比较

参考https://zhuanlan.zhihu.com/p/148050748

全部评论

推荐最新楼层

11-23 12:07

小红书_社区技术部_前端开发(实习员工)

8.22字节二面（前端-实习）

二面表现也还行，当时还问了下这个是有转正hc的，但是感觉相对于现在那么多大佬名校又是研究生的竞争者总感觉自己表现不够出色，没想到后面还是给了三面，当时在想暑假结束了是不是字节最近比较缺人才给我放到三面（自闭鼠鼠1.自我介绍2.你们参加的比赛是如何判断项目做的怎么样的3.你认为你们项目获得好成绩的原因是什么，有什么亮点加分点4.你们项目优化了些什么东西5.你们这些优化点有多少是你独立的想法6.可以挑一个项目讲一讲技术层面比较有挑战且做完后有成就感的吗7.浏览器缓存的强制缓存和协商缓存具体是如何实现的，具体实际代码操作8.算法题为Array实现一个Reader，通过接口getRea...

查看9道真题和解析面经烤面筋

点赞评论收藏

分享

11-25 00:06

浙江理工大学 SEM

校招与社招的区别到底在哪呢

首先，招聘比例差异明显，央国企85%都是应届生，社招的机会微乎其微，没通过校招就几乎告别了这些大企业。其次，校招主要面向刚毕业的大学生，竞争对手都是同学，而社招则是与有经验的人争夺，优势不在我们这边。最后，招聘要求也截然不同，校招是培养新人的机会，而社招则是要能立刻出成绩的老手，时间紧迫，压力山大！希望大家能够选择适合的方式。

牛客创作赏金赛

点赞评论收藏

分享

不愿透露姓名的神秘牛友

10-23 12:02

已编辑

成功变身华黑

被挂了终于可以吐槽了华为秋招流程简直是遇到过最糟糕的一面正常二面面试官迟到了二十分钟，答题环节一直在催促和打断，最后只给10分钟手撕，幸好成功通过了前两面然后三面约的是线上，身边人都是线下，多问了一句就被hr吊，完全没有投简历的时候求你进的好脸色三面更奇葩，面试官直接不开摄像头，全程压力，贬低实习内容，最后喜提挂技术不好可以挂，没有hc可以提前说，不尊重人真的不理解明年打算换苹果了😥

mmvvcc：没通过你就偷着乐吧，这样的进去你天天受气

点赞评论收藏

分享

11-23 18:53

合肥工业大学 golang

一字一句，带你读懂“外卖项目”

写在前面 起因是这样的，当我准备了很长时间八股文准备找一段实习工作时，我接到了蔚来的面试，面试官的一个问题让我大脑瞬间就宕机了——你这个项目是怎么实现序列化的？我回想起八股文中序列化是什么，在什么地方需要使用序列化，为什么不推荐使用JDK自带的序列化......可我的项目中到底那里使用了，怎么使用的序列化哪？ 于是便有了今天这篇文章，我相信很多人像我一样，跟着某颜色的马敲了一遍外卖项目，但是到头来对这个项目却是一窍不通，现在如果抛开这个，让你自己设计一个项目，你会怎么做哪？你可能知道个大概，比如什么使用MVC架构、redis做缓存、MyBatis做持久化，可具体的细节你又要怎...

一字一句，带你读懂外卖项... 简历中的项目经历要怎么写我的成功项目解析

点赞评论收藏

分享

点赞收藏评论

全站热榜

正在热议

# 25届秋招总结 #

342149次浏览 3275人参与

# 我的实习求职记录 #

6078160次浏览 83613人参与

# 北方华创开奖 #

39121次浏览 406人参与

# 地方国企笔面经互助 #

4828次浏览 12人参与

# 职场吐槽大会 #

89771次浏览 740人参与

# 选完offer后，你后悔学本专业吗 #

22433次浏览 160人参与

# 阿里云管培生offer #

39675次浏览 568人参与

# ai智能作图 #

1246次浏览 34人参与

# 运营商笔面经互助 #

91977次浏览 1329人参与

# 海康威视求职进展汇总 #

401668次浏览 3414人参与

# 如果有时光机，你最想去到哪个年纪？ #

23466次浏览 469人参与

# 国企还是互联网，你怎么选？ #

89746次浏览 697人参与

# 风评不好的公司，你会去吗？ #

20522次浏览 94人参与

# 如何一边实习一边秋招 #

998643次浏览 12681人参与

# 腾讯求职进展汇总 #

197767次浏览 1650人参与

# 银行笔面经互助 #

84271次浏览 888人参与

# 第一份工作应该选择高薪还是大平台 #

88722次浏览 590人参与

# bilibili求职进展汇总 #

33720次浏览 360人参与

215259次浏览 2536人参与

# 上班苦还是上学苦呢？ #

78223次浏览 724人参与

# 正在实习的你，几点下班 #

53835次浏览 397人参与

# 国央企薪资爆料 #

13195次浏览 96人参与

牛客网
牛客企业服务