模型融合策略之stacking理论

模型融合是比赛后期一个重要的环节，大体来说有如下的类型方式。
简单加权融合:
回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；
分类：投票（Voting)
综合：排序融合(Rank averaging)，log融合
stacking/blending:构建多层模型，并利用预测结果再拟合预测。
boosting/bagging：多树的提升方法

1) 什么是 stacking
简单来说 stacking 就是当用初始训练数据学习出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。
将个体学习器结合在一起的时候使用的方法叫做结合策略。对于分类问题，我们可以使用投票法来选择输出最多的类。对于回归问题，我们可以将分类器输出的结果求平均值。投票法和平均法都是很有效的结合策略，还有一种结合策略是使用另外一个机器学习算法来将个体机器学习器的结果结合在一起，这个方法就是Stacking。

2) 如何进行 stacking
图片说明
过程1-3 是训练出来个体学习器，也就是初级学习器。
过程5-9 是使用训练出来的个体学习器来得预测的结果，这个预测的结果当做次级学习器的训练集。
过程11 是用初级学习器预测的结果训练出次级学习器，得到我们最后训练的模型。

在stacking方法中，我们把个体学习器叫做初级学习器，用于结合的学习器叫做次级学习器或元学习器（meta-learner），次级学习器用于训练的数据叫做次级训练集。次级训练集是在训练集上用初级学习器得到的。

Stacking模型本质上是一种分层的结构，这里简单起见，只分析二级Stacking.假设我们有2个基模型 Model1_1、Model1_2 和一个次级模型Model2。
Step 1. 基模型 Model1_1，对训练集train训练，然后用于预测 train 和 test 的标签列，分别是P1，T1
Step 2. 基模型 Model1_2 ，对训练集train训练，然后用于预测train和test的标签列，分别是P2，T2
Step 3. 分别把P1,P2以及T1,T2合并，得到一个新的训练集和测试集train2,test2.
再用次级模型 Model2 以真实训练集标签为标签训练,以train2为特征进行训练，预测test2,得到最终的测试集预测的标签列。
这就是我们两层堆叠的一种基本的原始思路想法。在不同模型预测的结果基础上再加一层模型，进行再训练，从而得到模型最终的预测。

会有一个问题：如何降低再训练的过拟合性？
这里我们一般有两种方法——1、次级模型尽量选择简单的线性模型2、利用K折交叉验证

全部评论

推荐最新楼层

11-19 14:46

宁德时代_数据产品经理(准入职员工)

宁德时代内推宁德时代面经

宁德时代校招面经‌宁德时代热管理工程师面经面试时长：25分钟面试流程：无笔试，只有一面，英语测评，智力测评（两个测评应该不刷人，我都乱写的）面试官配置：只有一位，应该是经理面试内容：面试体验非常好，面试官教了我专业之外的很多东西。1.如果领导给你个任务，你有7天的时间，你怎么分配？2.电池液冷板的流量是怎么考虑的？3.实习过程中你学到了什么？4.你觉得实习和学校最大的区别是什么？反问：1.用的什么软件，以及怎么应对在学校用的仿真软件和工作的软件不一样这个转变？面试官说用的floefd，然后又说：其实软件的学习都是次要的，你们校招生进来会培训软件的使用，同时工作中也会天天用软件，你更应该关注的是...

点赞评论收藏

11-19 16:15

已编辑

中南大学 Java

人生充满了遗憾

在深圳实习完忙着秋招的时候有朋友叫我一起去外面玩，说以后可能很久都没机会来深圳了，不去玩会留下遗憾，我还是三方五次拒绝了，我当时的想法是：人生充满了遗憾，多一个少一个对我来说根本无所谓，我的评价是也就这b样了。秋招结束，春招启动！

求offer的社畜很想吃卤蛋：篮子对快手是不满意吗

牛客创作赏金赛 25届秋招总结

点赞评论收藏

11-02 09:49

已编辑

货拉拉_测试(实习员工)

终于收到了，秋招唯一面试，两天速通！

双飞本，有实习经历，终于可以躺平了，结束秋招！！

热爱生活的仰泳鲈鱼求你们别卷了：没事楼主，有反转

查看图片

点赞评论收藏

09-26 14:33

武汉理工大学 C++

拿完offer回来发现99+了😯

感谢大家安慰我嘿嘿只有晚上emo 面试的时候还是斗志满满的🥺打败了好多双9佬 开心

和蔼：在竞争中脱颖而出，厉害！但是有一个小问题：谁问你了？😡我的意思是，谁在意？我告诉你，根本没人问你，在我们之中0人问了你，我把所有问你的人都请来 party 了，到场人数是0个人，誰问你了？WHO ASKED？谁问汝矣？誰があなたに聞きましたか？누가 물어봤어？我爬上了珠穆朗玛峰也没找到谁问你了，我刚刚潜入了世界上最大的射电望远镜也没开到那个问你的人的盒，在找到谁问你之前我连癌症的解药都发明了出来，我开了最大距离渲染也没找到谁问你了我活在这个被辐射蹂躏了多年的破碎世界的坟墓里目睹全球核战争把人类文明毁灭也没见到谁问你了

点赞评论收藏