有用的知识,马住~
    点击上方卡片链接就可以进入专栏,专栏右上角有订阅选项,欢迎大家订阅~  前言  大家好,我是鬼仔,今天带来《机器学习高频面试题详解》专栏的第1.10节:随机森林。这是鬼仔第一次开设专栏,每篇文章鬼仔都会用心认真编写,希望能将每个知识点讲透、讲深,帮助同学们系统性地学习和掌握机器学习中的基础知识,希望大家能多多支持鬼仔的专栏~  目前这篇是试读,后续的文章需要订阅才能查看哦,专栏预计更新30+篇文章(只增不减),具体内容可以看专栏介绍,大家的支持是鬼仔更新的动力!                            本文大纲             一、原理     1. 集成学习             2. 随机森林             二、面试真题     1. 简要介绍下集成学习?             2. 集成学习中bagging和boosting的区别?             3. 随机森林的随机性体现在哪里?             4. 随机森林为什么不能用全样本取训练m棵决策树?             5. 随机森林的优缺点?           一、原理  1. 集成学习  在实际应用中,单个模型可能无法满足要求,因此需要将多个基础模型组合起来,以提高模型的准确性和稳定性,这就是集成学习。集成学习不仅可以提高模型性能,还可以有效地减少过拟合的风险。同时,集成算法也存在一些缺点,由于集成算法需要将多个基础模型的结果组合起来,因此计算成本会比单个模型更高,导致运行时间变长。  集成算法可以分为两类:基于bagging(投票)的集成算法和基于boosting(加权)的集成算法。基于投票的集成算法是将多个基础模型的结果进行投票,以确定最终的结果;基于加权的集成算法是将多个基础模型的结果进行加权,以确定最终的结果。  集成学习的示意图如下:    1)Bagging算法  Bagging算法流程图如下:    在Bagging算法中,基学习器的训练集是通过随机采样得到的,随机采样常使用自助采样法(Bootstrap sampling),即有放回的采样:对于m个样本的训练数据集合,每次随机采集一个样本放入采样集,接着把该样本放回,下次采样时该样本仍有可能被采集到,这样采集m次,最终可以得到m个样本的采样集。以上操作重复N次,可以得到N个不同的采样集。对于这N个采样集,我们可以分别独立训练出N个弱学习器,最后通过集成策略(投票法/平均法)得到一个强学习器。  可以看到,Bagging算法中,基模型之间不存在强依赖关系,一系列基模型可以并行生成。因为采样与投票/平均过程的复杂度很小,所以Bagging算法的复杂度与直接使用基模型的复杂度同阶,算法高效。  2)Boosting算法  Boosting算法流程图如下:    Boosting算法的基本思想是,将多个弱学习器组合成一个强学习器,从而提高学习性能。它的基本原理是,每个弱学习器都会从上一个弱学习器的错误中学习,从而提高学习性能。具体可以分为两种操作:重赋权法和重采样法。  重赋权法要求基学习器能对特定的数据分布进行学习,即在训练过程的每一轮中,根据样本分布为每个训练样本重新赋予一个权重。具体步骤如下:首先从训练集用初始权重训练出一个弱的基学习器1,根据基学习器的学习误差率来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本的权重变高,使得这些误差率高的样本在后面的
点赞 22
评论 3
全部评论
楼主去哪里了
点赞 回复 分享
发布于 2023-04-10 01:00 山东

相关推荐

Natrium_:这时间我以为飞机票
点赞 评论 收藏
分享
评论
点赞
收藏
分享
牛客网
牛客企业服务