《机器学习高频面试题详解》1.10:随机森林

点击上方卡片链接就可以进入专栏,专栏右上角有订阅选项,欢迎大家订阅~

前言

大家好,我是鬼仔,今天带来《机器学习高频面试题详解》专栏的第1.10节:随机森林。这是鬼仔第一次开设专栏,每篇文章鬼仔都会用心认真编写,希望能将每个知识点讲透、讲深,帮助同学们系统性地学习和掌握机器学习中的基础知识,希望大家能多多支持鬼仔的专栏~

目前这篇是试读,后续的文章需要订阅才能查看哦,专栏预计更新30+篇文章(只增不减),具体内容可以看专栏介绍,大家的支持是鬼仔更新的动力!

本文大纲

一、原理

1. 集成学习

2. 随机森林

二、面试真题

1. 简要介绍下集成学习?

2. 集成学习中bagging和boosting的区别?

3. 随机森林的随机性体现在哪里?

4. 随机森林为什么不能用全样本取训练m棵决策树?

5. 随机森林的优缺点?

一、原理

1. 集成学习

在实际应用中,单个模型可能无法满足要求,因此需要将多个基础模型组合起来,以提高模型的准确性和稳定性,这就是集成学习。集成学习不仅可以提高模型性能,还可以有效地减少过拟合的风险。同时,集成算法也存在一些缺点,由于集成算法需要将多个基础模型的结果组合起来,因此计算成本会比单个模型更高,导致运行时间变长。

集成算法可以分为两类:基于bagging(投票)的集成算法和基于boosting(加权)的集成算法。基于投票的集成算法是将多个基础模型的结果进行投票,以确定最终的结果;基于加权的集成算法是将多个基础模型的结果进行加权,以确定最终的结果。

集成学习的示意图如下:

1)Bagging算法

Bagging算法流程图如下:

在Bagging算法中,基学习器的训练集是通过随机采样得到的,随机采样常使用自助采样法(Bootstrap sampling),即有放回的采样:对于m个样本的训练数据集合,每次随机采集一个样本放入采样集,接着把该样本放回,下次采样时该样本仍有可能被采集到,这样采集m次,最终可以得到m个样本的采样集。以上操作重复N次,可以得到N个不同的采样集。对于这N个采样集,我们可以分别独立训练出N个弱学习器,最后通过集成策略(投票法/平均法)得到一个强学习器。

可以看到,Bagging算法中,基模型之间不存在强依赖关系,一系列基模型可以并行生成。因为采样与投票/平均过程的复杂度很小,所以Bagging算法的复杂度与直接使用基模型的复杂度同阶,算法高效。

2)Boosting算法

Boosting算法流程图如下:

Boosting算法的基本思想是,将多个弱学习器组合成一个强学习器,从而提高学习性能。它的基本原理是,每个弱学习器都会从上一个弱学习器的错误中学习,从而提高学习性能。具体可以分为两种操作:重赋权法和重采样法。

重赋权法要求基学习器能对特定的数据分布进行学习,即在训练过程的每一轮中,根据样本分布为每个训练样本重新赋予一个权重。具体步骤如下:首先从训练集用初始权重训练出一个弱的基学习器1,根据基学习器的学习误差率来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本的权重变高,使得这些误差率高的样本在后面的

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

机器学习高频面试题详解 文章被收录于专栏

专栏作者曾在校招期间拿到包括字节、微信和华为等多家大厂的SSP offer,该专栏主要是为了帮助同学们系统性地学习和掌握机器学习中的基础知识。专栏详细地整理了各大厂的算法岗面经,力争深入浅出地讲解重要知识点,适合人群为准备校招或者实习,且目标岗位为算法岗、数据挖掘岗或者数据分析岗的同学。

全部评论
boosting中的重采样法跟bagging有什么区别呢?
点赞 回复 分享
发布于 2023-04-12 22:18 广东
鬼仔大佬好
点赞 回复 分享
发布于 2023-02-13 09:21 上海
前排沙发占座
点赞 回复 分享
发布于 2023-02-13 09:15 河北

相关推荐

不愿透露姓名的神秘牛友
07-23 14:13
这是聊岔撇了吗,相同的话问了两遍
吴offer选手:上下文切换这一块
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
06-21 11:33
昨天是学校最后一场招聘会,鼠鼠去参加了,全场只有一个招聘java的岗位,上来先做一份笔试题,做完后他拿张纸对答案,然后开始问简历上的问题,深圳小厂,6-8k(题目如下),后面还有两轮面试。然后我就在招聘现场逛呀逛,看到有公司招聘电商运营,给的比上年的小厂还多,鼠鼠就去了解了下,然后hr跟鼠鼠要了份简历,虽然我的简历上面全是求职Java开发相关的内容,但是hr还是鼓励我说没关系,她帮我把简历给老板看看,下周一会给我通知。招聘会结束后鼠鼠想了一段时间,也和朋友聊了聊,发现我可能是不太适合这个方向,然后就跟爸爸说回家了给我发条微信,我有些话想跟他说说。晚上爸爸到家了,跟我发了条微信,我立马跑出图书馆跟他打起了电话,这个通话长达一个小时,主要是跟爸爸坦白说我不想找这行了,是你的儿子太没用了,想试试其他行业。然后爸爸也跟我说了很多,说他从来没有希望我毕业后就赚大钱的想法,找不到就回家去,回家了再慢慢找,实在找不到就跟他干(帮别人装修房子,个体户),他也知道工作不好找,让我不要那么焦虑,然后就是聊一些家常琐事。对于后面的求职者呢我有点建议想提一下,就是如果招实习的时间或者秋招开始,而你的简历又很差的情况下,不要说等做好项目填充完简历之后再投,那样就太晚了,建议先把熟悉的项目写上简历,然后边投边面边完善,求职是一个人进步的过程,本来就比别人慢,等到一切都准备好后再投岂不是黄花菜都凉了。时间够的话还是建议敲一遍代码,因为那样能让你加深一下对项目的理解,上面那些说法只是针对时间不够的情况。当然,这些建议可能没啥用,因为我只是一个loser,这些全是建立在我理想的情况下,有没有用还需其他人现身说法。上篇帖子没想到学校被人认了出来,为了不丢脸只能匿名处理了。
KPLACE:找研发类或技术类,主要还是要1.多投 2.多做准备,很多方面都要做准备 3.要有心理准备,投累了就休息一两天,再继续,要相信自己能找到
投递58到家等公司10个岗位
点赞 评论 收藏
分享
在等offer的火锅...:我去履历这么好,都找不到工作吗?
点赞 评论 收藏
分享
评论
22
46
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务