2023-02-27 13:20 腾讯_微信_算法

发布于广东

关注

《机器学习高频面试题详解》1.12：GBDT算法

点击上方卡片链接就可以进入专栏，专栏右上角有订阅选项，欢迎大家订阅～

前言

大家好，我是鬼仔，今天带来《机器学习高频面试题详解》专栏的第1.12节：GBDT算法。这是鬼仔第一次开设专栏，每篇文章鬼仔都会用心认真编写，希望能将每个知识点讲透、讲深，帮助同学们系统性地学习和掌握机器学习中的基础知识，希望大家能多多支持鬼仔的专栏～

目前这篇是试读，后续的文章需要订阅才能查看哦，专栏预计更新30+篇文章（只增不减），具体内容可以看专栏介绍，大家的支持是鬼仔更新的动力！

本文大纲
一、原理	1. 提升树模型
	2. 梯度提升树
二、面试真题	1. AdaBoost与GBDT对比有什么不同？
	2. RF与GBDT之间的区别与联系？
	3. GBDT需要特征归一化吗？
	4. GBDT如何实现正则化？
	5. GBDT算法优缺点？

一、原理

1. 提升树模型

Boosting策略采用加法模型（基分类器的线性组合）与前向分布算法，将多个弱分类器集成为一个强分类器。提升树算法是以分类树或回归树作为基分类器的提升算法，可以表示为：

$f_M(x)=\sum\limits_{m=1}^{M}T(x;\Theta_m)$ ，其中 $T(x;\Theta_m)$ 表示决策树， $\Theta_m$ 为决策树的参数， $M$ 为树的个数。

提升树采用前向分布算法，先初始化提升树 $f_0(x)=0$ ，假设第 $m-1$ 步的模型为 $f_{m-1}(x)$ ，则下一步模型为：

$f_m(x)=f_{m-1}(x)+T(x;\Theta_m)$ ，

通过极大似然估计可以确定第 $m$ 颗树的参数：

$\hat{\Theta_m}=\mathop{\arg\min}\limits_{\theta_m}\sum\limits_{i=1}^{N}L(y_i,f_{m-1}(x_i)+T(x_i;\Theta_m))$

不同问题对应着不同的损失函数，比如分类问题常用指数损失函数： $L(y,f(x))=exp[-yf(x)]$ ，回归问题常用平方损失函数： $L(y,f(x))=(y-f(x))^2$ 。

以平方损失函数为例，损失函数为： $L(y_i,f_{m-1}(x_i)+T(x_i;\Theta_m))=[y-f_{m-1}(x)-T(x;\Theta_m)]^2=[r-T(x;\Theta_m)]^2$ ，其中 $r=y-f_{m-1}(x)$ 是当前模型拟合数据的残差。所以，对于回归问题的提升树算法来说，只需简单地拟合当前模型的残差。

2. 梯度提升树

当损失函数是平方损失和指数损失函数时，前向分布算法的每一步优化是比较简单的，但对于一般损失函数而言，与优化目标的拟合不好度量，损失函数各种各样，需要找到一种通用的拟合方法。

梯度提升树GBDT参考

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

机器学习高频面试题详解文章被收录于专栏

专栏作者曾在校招期间拿到包括字节、微信和华为等多家大厂的SSP offer，该专栏主要是为了帮助同学们系统性地学习和掌握机器学习中的基础知识。专栏详细地整理了各大厂的算法岗面经，力争深入浅出地讲解重要知识点，适合人群为准备校招或者实习，且目标岗位为算法岗、数据挖掘岗或者数据分析岗的同学。

全部评论

推荐最新楼层

牛客506882988号

门头沟学院数据分析师

您好，请教一下，为什么“提升树算法是以分类树或回归树作为基分类器的提升算法”，但比较RF和GBDT时说“组成随机森林的数可是分类树也可以是回归树，而GBDT只由回归树组成”呢

点赞回复分享

发布于 2024-01-19 15:24 北京

牛客_运营

点赞回复分享

发布于 2023-02-28 10:44 北京

牛客_运营

我才发现第一章的名字叫监督学习

点赞回复分享

发布于 2023-02-28 10:42 北京

04-27 16:19

卓越里程_中台运营(准入职员工)

卓越教育内推卓越教育内推码

教师岗位面试提纲：学科专业知识类数学学科：已知函数在区间上的最小值为，求的表达式。语文学科：请赏析杜甫《登高》中的诗句 “无边落木萧萧下，不尽长江滚滚来”。英语学科：用英语解释 “虚拟语气” 的概念，并举例说明其在不同时态中的用法。物理学科：简述牛顿第二定律的内容，并说明如何通过实验来验证该定律。化学学科：写出乙醇与乙酸发生酯化反应的化学方程式，并说明该反应的反应机理。教育教学能力类教学设计：请以初中数学 “一元一次方程” 为例，设计一个完整的教学方案，包括教学目标、教学重难点、教学方法和教学过程。课堂管理：假如你在课堂上遇到有学生故意捣乱，影响其他同学学习的情况，你会如何处理？教学方法：谈谈...

点赞评论收藏

分享

04-29 18:21

已编辑

门头沟学院 C#工程师

一面:主要询问经历，因为我的项目都是玩具所以说并不很能拷打，就让我自己出道算法题做完给面试官讲(面试管非常善良，包容),然后自己出的是一道博弈题，成功讲出来了。反问面试官：面试的怎么样，还需要做哪些。答:还行，可以补一下基础。许愿二面。更新:第二天收到感谢信

点赞评论收藏

分享

04-25 19:29

已编辑

宁波大学运营

大一能找啥实习啊

求大家帮忙看看😭😭😭孩子想找工作

被普调的六边形战士很高大：你我美牛孩

点赞评论收藏

分享

04-02 16:49

门头沟学院 Java

科大讯飞HR真牛🐴

本来想问问面试消息的，结果直接给我杀了，感谢也没有#科大讯飞#

_bloodstream_：我也面了科大讯飞，主管面的时候听说急招人优先考虑能尽快实习的，我说忙毕设，后面就一直没消息了

点赞评论收藏

分享

04-30 11:32

齐鲁工业大学 Java

这期的创作激励收益将全用于购买我的薯片。

很感谢各位观看，上期文章有两块钱的收益，看来大模型还是很不少人感兴趣的，今天继续写自己学习的心得了。那么首先各位要搞清楚大模型本质上分为两种，上期文章里面我写到了，有预训练模型和底层手搓论文模型两种，云服务方面但是实际上我们去使用的时候还是会出现本地内存不够用的情况，不管用那种，在下载模型去跑的时候因为内存不够所以电脑会卡死，那么想要去跑，就可以选择轻量化模型+云服务的方式（这里试了一下谷歌的colab可以免费试用GPU/TPU也可接入gemini去写代码），这个就是云计算的一种体现，它的代码全部在云上，同时代码执行速度远高于你的本地，另外也不管也可以去试试微软，阿里的云服务，也类似。分词器：...

牛客激励计划牛客创作赏金赛

点赞评论收藏

分享

评论

4

8

招聘动态

26届实习软件笔试必刷题单

26届实习求职交流群

字节跳动Tik Tok

26届实习招聘

26届投递链接合集

快手

25届补录+26届实习

字节跳动-Tik Tok

26届实习生招聘

25届春招专场

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 设计人如何选offer #

98398次浏览 689人参与

# 找工作，行业重要还是岗位重要？ #

7749次浏览 102人参与

# 五一之后，实习真的很难找吗？ #

45708次浏览 324人参与

# 盲审过后你想做什么？ #

12686次浏览 113人参与

# 外包能不能当跳板？ #

22195次浏览 191人参与

# 领导秒批的请假话术 #

9924次浏览 74人参与

# 考研可以缓解求职焦虑吗 #

21162次浏览 251人参与

# 五一假期，你打算“躺”还是“卷”？ #

30458次浏览 436人参与

# 找工作前vs找工作后的心路变化 #

7203次浏览 64人参与

# 面试等了一周没回复，还有戏吗 #

115648次浏览 1074人参与

# 硬件人，你被哪些公司给挂了 #

46709次浏览 722人参与

# 安克创新求职进展汇总 #

32580次浏览 415人参与

# 大疆的机械笔试比去年难吗 #

69651次浏览 603人参与

# 应届生薪资多少才合理？ #

3115次浏览 24人参与

# 牛友们的论文几号送审 #

27269次浏览 623人参与

# 写简历别走弯路 #

714492次浏览 7850人参与

# 你喜欢工作还是上学 #

37665次浏览 412人参与

# 如果有时光机，你最想去到哪个年纪？ #

43337次浏览 769人参与

# 如果不工作真的会快乐吗 #

101225次浏览 867人参与

# 每人推荐一个小而美的高薪公司 #

72850次浏览 1357人参与

牛客网
牛客企业服务