2023-03-12 21:37 腾讯_微信_算法

发布于广东

关注

《机器学习高频面试题详解》1.13：XGBoost算法（上）

点击上方卡片链接就可以进入专栏，专栏右上角有订阅选项，欢迎大家订阅～

前言

大家好，我是鬼仔，今天带来《机器学习高频面试题详解》专栏的第1.13节：XGBoost算法（上）。这是鬼仔第一次开设专栏，每篇文章鬼仔都会用心认真编写，希望能将每个知识点讲透、讲深，帮助同学们系统性地学习和掌握机器学习中的基础知识，希望大家能多多支持鬼仔的专栏～

这一节的内容较多，分为上下两篇解读：上篇讲算法原理，下篇解析高频面试真题。目前这篇是试读，后续的文章需要订阅才能查看哦，专栏预计更新30+篇文章（只增不减），具体内容可以看专栏介绍，大家的支持是鬼仔更新的动力！

一、目标函数定义和求解

XGBoost是boosting模型的集大成者，它在系统实现中的创新大大提高了算法的实用性，在许多机器学习和数据挖掘问题中产生了广泛的影响，在竞赛中也被广泛使用。XGBoost在任何场景下的可扩展性都很强，在单台机器上的运行速度很快，并可在分布式或内存限制设置中可扩展到数十亿个实例。本文主要参考作者陈天奇大佬的原文introduction to xgboost，行文逻辑非常清晰。

如果不考虑工程实现上的一些差异，xgboost与gbdt比较大的不同就是目标函数的定义。xgboost的目标函数如下：

三个红框分别对应XGBoost的损失函数（加法模型）、正则项（包括L1、L2）和常数项（前t-1棵树的复杂度）。

XGBoost和GBT的另一个重要区别是：XGBoost对目标函数执行二阶泰勒展开，而提升树模型只采用一阶泰勒展开。

1. 决策树的定义

上面损失函数中的 $f_x$ 表示的是决策树，可以形式化地定义为： $f_t(x)=w_{q(x)}$ ，即将一颗决策树拆分成结构部分q和叶子权重部分w，结构函数q把输入数据映射到叶子索引，而叶子权重w表示每个叶子索引对应的分数。

2. 正则项的定义

XGBoost的目标函数中考虑了正则项，效果类似于剪枝操作，防止生成的决策树过于复杂，导致过拟合。正则项有多种定义方式，一般采用下图中的经验公式，这个公式包含了一棵树里面节点的个数，以及每个叶子节点分数的L2模平方。

从正则项的公式可以看出：

叶结点越多，则决策树越复杂。
每个叶结点输出分数的绝对值越大，则决策树越复杂。

从Bayes角度来看，正则相当于对模型参数引入先验分布：

3. 目标函数的优化

根据前面对决策树和正则项的定义，并去掉常数项后，我们可以将目标函数优化为以下形式：

其中定义叶子结点j上的实例集合为： $I_j=\left\{ i|q(x_i)=j \right\}$ ，g是一阶导数，h是二阶导数，n为样本数，T为叶子节点数，w为待求解权重。

该目标函数为T个相互独立的二次函数之和，我们进一步简化目标函数的公式：

为求得目标函数的极值，我们对 $w_j$ 求导等于0，可得到最优解 $w_j^*$ ，最后将其代入原目标函数可得：

目标函数Obj也可以称为结构分数，它是衡量第t棵CART树的结构好坏的标准，值越小，代表树的结构越好。

二、结点分裂算法

结构分数Obj可以评估每棵树的得分，为了找出最优的树结构，我们可以枚举出所有的树，然后计算每棵树的得分，然后保留得分最高的树，但是实际中这样的操作是不现实的，树的结构近乎无限

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

机器学习高频面试题详解文章被收录于专栏

专栏作者曾在校招期间拿到包括字节、微信和华为等多家大厂的SSP offer，该专栏主要是为了帮助同学们系统性地学习和掌握机器学习中的基础知识。专栏详细地整理了各大厂的算法岗面经，力争深入浅出地讲解重要知识点，适合人群为准备校招或者实习，且目标岗位为算法岗、数据挖掘岗或者数据分析岗的同学。

全部评论

推荐最新楼层

常州工学院算法工程师

想问一下，如果要求手推xgboost的话，是否这些内容都要写出来

点赞回复分享

发布于 2023-05-25 16:54 江苏

红太狼孤寡孤寡

青岛农业大学算法工程师

马了学习一下

点赞回复分享

发布于 2023-03-13 19:06 山东

北京航空航天大学算法工程师

感谢分享，学习一下

点赞回复分享

发布于 2023-03-13 19:06 山东

07-07 14:12

浙江工商大学 Java

晕。0个人在看我的简历对吗

我说boss 牛客 猎聘 51 你们给我点钱吧要不，我每天屏幕使用时间都在你们身上了

如珩NanoShik...：好臭的沟通数

点赞评论收藏

分享

不愿透露姓名的神秘牛友

07-07 13:35

ChatGPT-5代考，竟然真能骗过字节面试官啊

虽然不怎么光彩，经过这件事，可能我真的要去认同“面试八股文早该淘汰！不会用AI作弊的程序员=新时代文盲！”这句话了

HellowordX：Ai的出现是解放劳动力的，不是用来破坏公平竞争环境的，这样下去，轻则取消所有线上面试，严重了会影响整个行业对所有人产生影响，企业会拉高入职考核各种离谱考核会层出不穷

你找工作的时候用AI吗？

点赞评论收藏

分享

06-26 22:20

门头沟学院 Java

怎么老是有这种啊

码农索隆：让你把简历发给她，她说一些套话，然后让你加一个人，说这个人给你改简历，然后开始卖课

我的求职精神状态

点赞评论收藏

分享

06-09 11:12

重庆移通学院运营

大二想要实习经历该怎么办

目前简历很空，该怎么找实习经历，今年暑假就想

不要停下啊：大二打开牛客，你有机会开卷了，卷起来

，去找课程学习，在牛客上看看大家面试笔试都需要会什么，岗位有什么需求就去学什么，努力的人就一定会有收获，这句话从来都经得起考验，像我现在大三了啥也不会，被迫强行考研，炼狱难度开局，啥也不会

，找工作没希望了，考研有丝丝机会

点赞评论收藏

分享

07-07 17:08

河海大学产品经理

一觉醒来，全世界的实习生水平下降了一万倍

一觉醒来，全球的实习生水平下降了一万倍，只有你保持不变！你还没有发现，只是照常上招聘软件上看岗位，在往常，你总是从早上刷到晚上，每天沟通200+岗位，但往往都是“送达”和“已读不回”。但今天，你一打开招聘软件，就看到99+的新招呼，并且还有源源不断的新消息在涌进来，“看了你的在线简历，对你很感兴趣，请一定给我们一个与你交流的机会！”“日薪1000，无条件转正，来这里实习吧！”......你定了定神，点开了字节跳动的聊天框，只见对面的HR从昨晚到现在已经不断的给你发了十几次面试邀约，你心里十分疑惑，想到一天前还是你给对方发十几条消息，怎么角色互换了？疑惑之余，你答应了面试。面试开始了，你壮了壮胆...

点赞评论收藏

分享

评论

14

28

招聘动态

滴滴

2026届秋季校招提前批

米哈游2026校园招聘

技术提前批

小红书

REDstar提前批招聘

Touch CIB

数字兴业科技挑战赛

现代汽车前瞻技术研发挑战赛

26届投递链接合集

快手

快Star-X特别技术人才计划启动

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你认为小厂实习有用吗？ #

14122次浏览 186人参与

# 面试官是我前女友 #

107084次浏览 731人参与

# 实习生的蛐蛐区 #

40710次浏览 329人参与

# 当你面对裁员会如何？ #

276030次浏览 2438人参与

# 计算机有哪些岗位值得去？ #

13096次浏览 134人参与

# lastday知无不言 #

56960次浏览 460人参与

# 在职场上，你最讨厌什么样的同事 #

14550次浏览 150人参与

# 推荐一首陪你工作的歌吧 #

14071次浏览 97人参与

# 说说你知道的学历厂 #

28574次浏览 178人参与

# 你找工作的时候用AI吗？ #

15081次浏览 194人参与

# 下班后的时间你怎么安排 #

7616次浏览 111人参与

# 哪一瞬间觉得自己长大了 #

7345次浏览 167人参与

# 携程求职进展汇总 #

559500次浏览 4258人参与

# 面试尴尬现场 #

24154次浏览 164人参与

# 工作后会跟朋友渐行渐远吗 #

30091次浏览 216人参与

# 中核求职进展汇总 #

20180次浏览 152人参与

# 社会教会你的第一课 #

29648次浏览 397人参与

# 多益网络工作体验 #

49710次浏览 280人参与

# 虾皮求职进展汇总 #

244232次浏览 1797人参与

# 神州信息工作体验 #

16077次浏览 75人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务