2023-02-04 23:10 已编辑腾讯_微信_算法

发布于广东

关注

《机器学习高频面试题详解》1.9：决策树-特征选择准则

点击上方卡片链接就可以进入专栏，专栏右上角有订阅选项，欢迎大家订阅～

前言

大家好，我是鬼仔，今天带来《机器学习高频面试题详解》专栏的第1.9节：决策树-特征选择准则。这是鬼仔第一次开设专栏，每篇文章鬼仔都会用心认真编写，希望能将每个知识点讲透、讲深，帮助同学们系统性地学习和掌握机器学习中的基础知识，希望大家能多多支持鬼仔的专栏～

目前这篇是试读，后续的文章需要订阅才能查看哦，专栏预计更新30+篇文章（只增不减），具体内容可以看专栏介绍，大家的支持是鬼仔更新的动力！

PS：这个月工作和生活上有较多事情需要处理，导致专栏拖更了，跟同学们说声抱歉。接下来鬼仔会加快更新速度，保持质量的同时，坚持每周两～三更！

本文大纲
一、原理	1. 决策树模型
一、原理	2. 特征选择准则
二、面试真题	1. 决策树和条件概率分布的关系？
	2. 如何理解熵和条件熵的概念？
	3. 如何理解信息增益和信息增益率的概念？
	4. CART树为什么采用基尼指数，而不是信息熵？
	5. 基尼系数存在什么问题？
	6. 决策树在构建的过程中，如果只使用到部分特征，那么剩余的其他特征是没用的吗？

一、原理

1. 决策树模型

决策树其实就是一个if-else规则的集合，决策树的根结点到叶结点的每一条路径都构建了一条互斥且完备的规则。决策树还表示给定特征条件下类的条件概率分布：决策树将特征空间划分为互不相交的区域，并在每个区域定义了一个类的概率分布。

决策树的学习目标是根据给定的训练数据构建一个决策树模型，使它能够对新的实例进行正确的分类。我们首先要确定决策树的损失函数，一般是正则化的极大似然函数，而决策树的学习策略就是以损失函数为目标函数的最小化。决策树一般采用启发式的递归算法，递归地选择最优特征进行划分，直到所有训练数据被正确分类，或者无法找到合适的特征。

启发式算法构建出的决策树可能会发生过拟合现象，因此需要对已生成的树自下而上进行剪枝，去掉过于细分的叶结点，降低决策树的复杂度，提高泛化能力。如果样本有很多冗余特征，可以先做一轮特征筛选，再去构建决策树。

决策树算法包括三个重要环节：特征选择、结点生成和剪枝，接下来我会一一进行原理+真题讲解。

2. 特征选择准则

直觉上说，如果在当前的数据集合中，一个特征具有更好的分类能力，那么应该选择该特征作为分裂结点。关键在于如何定义特征的分类能力？决策树引入了信息增益、信息增益比和基尼指数等定义，前面两个定义都基于信息论与概率统计中的熵。

2.1. 熵和条件熵

熵是表示随机变量不确定性的度量，越不确定的变量，它的熵就越大。设X是一个有限取值的离散随机变量，其熵的表达式如下：

$H(X)=-\sum_{i=1}^{n}{p_ilogp_i}$ ，

其中 $n$ 代表变量 $X$ 的 $n$ 种不同的离散取值。而 $p_i$ 代表了X取值为 $i$ 的概率， $log$ 为以2或者e为底的对数。

熵越大，随机变量的不确定性就越大，从定义可知：

$0\leq H(X)\leq logn$ ，即当变量 $X$ 的 $n$ 种取值概率都一样时（均为 $1/n$ ）， $X$ 的熵最大，此时 $X$ 具有最大的不确定性。

进一步地，我们可以定义条件熵 $H(Y|X)$ ，表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性，其表达式如下：

$H(Y|X)=\sum_{i=1}^{n}{p_iH(Y|X=x_i)}$ ，其中 $p_i=P(X=x_i)$ 。

简单来说，条件熵 $H(Y|X)$ 度量了我们在知道 $X$ 以后 $Y$ 剩下的不确定性。

2.2. 信息增益

信息增益 $g(D,A)$ 表示样本集合 $D$ 的熵 $H(D)$ 与给定特征 $A$ 条件下 $D$ 的条件熵 $H(D|A)$ 之差，这其实等价于集合中类与特征之间的互信息：

$g(D,A)=H(D)-H(D|A)$ 。

信息增益 $g(D,A)$ 表示了由于特征A而使得对数据集 $D$ 的分类的不确定性减少的程度，不同的特征具有不同的信息增益，信息增益大的特征具有更强的分类能力。

所以，决策树可以利用信息增益准则来选择特征：对于给定的数据集合，依次计算

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

机器学习高频面试题详解文章被收录于专栏

专栏作者曾在校招期间拿到包括字节、微信和华为等多家大厂的SSP offer，该专栏主要是为了帮助同学们系统性地学习和掌握机器学习中的基础知识。专栏详细地整理了各大厂的算法岗面经，力争深入浅出地讲解重要知识点，适合人群为准备校招或者实习，且目标岗位为算法岗、数据挖掘岗或者数据分析岗的同学。

全部评论

推荐最新楼层

中山大学算法工程师

赞👍🏻

点赞回复分享

发布于 2023-01-31 19:00 广东

牛客_运营

你终于更新啦！

点赞回复分享

发布于 2023-01-31 10:24 北京

07-19 20:30

已编辑

阿里巴巴_饿了么_研发工程师JAVA(实习员工)

大三双非水产专业上岸阿里后端(一)

慕然回首大学已去三年光阴，努力的成果远超自己预期  三年前的今天，小小的骑手刚高考完，收到了录取通知，当时因为考的不上不下，只能蹭到末2垃圾专业的线，在双非和流放边缘211中最后选择了一所纯双一流，但是刚刚好好踩着全校最低分数阶挤进去，被调剂到了完全未知的水产养殖专业。  从接到录取通知书的那一刻起，看着录取专业,对着毕业后的生活完全茫然了,无非两条路可以走  去养殖场搬饲料养鱼当海王拿着三四千的工资。 亦或是自己回乡创业养鱼致富。但对小小的老子憧憬的科技向往完全不沾边  为了不毕业找不到工作去送外卖跑滴滴，所以在三年前暑假的那一刻起小小的骑手就开始学习C语言刷算法准备大一下的转计算机专业考试...

明天不下雨了：我操华南农业大学永远的神

投递阿里巴巴集团等公司10个岗位

点赞评论收藏

分享

07-14 21:32

门头沟学院前端工程师

吐槽下遇到的最难受的面试

面试前十分钟，主包进入面试会议。然后就开等，正常一般都是提前5-10分钟进入会议的。主包一般会进去先待着，冷静冷静。这次静的有点久，面试官上来先迟到了15分钟。没事，主包到这里觉得还可以接受。然后面试就是简单的问了两个八股题，然后就让写算法。到这里主包已经觉得不对劲了（那......也好吧，可能是这个面试官就是这样的呢）到了经典的反问环节，主包一般都会和面试官请教一下还有哪些方面的不足。：没有啊，我对你不太了解，建议不了（主包当场噎住......）

面试尴尬现场

点赞评论收藏

分享

06-23 13:16

五邑大学前端工程师

找不到工作

25届应届生，找工作找了好久，没心气了，不想找了，沟通了2000多，简历投了两百多，完全找不到，想直接进厂了😇。

军刀：我同学沟通一万我四千现在我待业

点赞评论收藏

分享

07-13 18:31

已编辑

阿里巴巴_软件开发(实习员工)

这简历还想找工作啊

不好意思引流了，只是想让大家来拷打实习因期末考暂停了，不想复习心血来潮制作了秋招简历的初版，希望大家拷打，后面修改的版本应该都会发，秋招和牛油们在一起*简历模仿某大佬写的，想压成一页所以有些东西故意写得很短新版简历已发，欢迎主页交流

编程界菜鸡：都一个月，就算是实习也会觉得不稳定

点赞评论收藏

分享

07-16 18:39

上海大学模拟IC设计

只能说别太离谱，考察的都是人情世故

26届校招投递进展

点赞评论收藏

分享

评论

21

27

招聘动态

拼多多集团-PDD

2026届秋季校招提前批

滴滴

2026届秋季校招提前批

Touch CIB

数字兴业科技挑战赛

26届投递链接合集

快手

快Star-X特别技术人才计划启动

现代汽车前瞻技术研发中心

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 第一份工作应该选高薪还是热爱？ #

67039次浏览 594人参与

# 不考虑薪资和职业，你最想做什么工作呢？ #

92251次浏览 680人参与

# 秋招签约后的心态变化 #

82692次浏览 814人参与

# 听劝，这个公司值得去吗 #

486401次浏览 1700人参与

# 你觉得早上几点上班合适？ #

72544次浏览 303人参与

# 学历贬值真的很严重吗？ #

24667次浏览 174人参与

# 机械人与华为的爱恨情仇 #

120280次浏览 957人参与

# 一人推荐一个值得去的通信/硬件公司 #

186627次浏览 1859人参与

# 打工人的工作餐日常 #

53431次浏览 415人参与

# 哪些公司真双非友好？ #

15933次浏览 82人参与

# 26届的你们有几段实习？ #

44672次浏览 488人参与

# 月薪多少能在一线城市生存 #

29080次浏览 311人参与

# 双非能在秋招上岸吗？ #

221860次浏览 1172人参与

# 你以为的实习VS真实的实习 #

30512次浏览 274人参与

# 今年秋招哪家公司给的薪资最良心？ #

253122次浏览 1419人参与

# 你后悔自己读研吗？ #

21066次浏览 240人参与

# 当下环境，你会继续卷互联网，还是看其他行业机会 #

118054次浏览 812人参与

# 追觅科技求职进展汇总 #

18369次浏览 120人参与

# 实习想申请秋招offer，能不能argue薪资 #

150106次浏览 932人参与

# 如何KTV领导 #

62917次浏览 472人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务