请教:为什么RF,对于不平衡的数据集,可以平衡误差??

请教1:为什么RF,对于不平衡的数据集可以平衡误差??
请教2:改变随机森林的训练样本数据量,是否会影响到随机森林学习到的模型的复杂度。
请教3:逻辑回归估计参数时的目标函数,如果加上一个先验的服从高斯分布的假设,会是什么样。

全部评论
1.RF往往在处理不平衡类数据集表现不错,在创建树的过程中使用类变量的分裂规则,可以强制地将两个类很好的进行处理。 2.不会影响。
2 回复 分享
发布于 2018-08-16 20:07
不可以吧?啥叫平衡误差?
点赞 回复 分享
发布于 2018-08-16 19:53
可能会比LR这种表现好点,但是平衡误差还是想多了,要不然sklearn里的class weight是干嘛的
点赞 回复 分享
发布于 2018-08-16 20:24
3.L2
点赞 回复 分享
发布于 2018-08-16 21:08
bootstrap+downsample
点赞 回复 分享
发布于 2018-08-16 22:58
对于不平衡数据集平衡误差是因为随机森林在损失函数里为不同的类设置了不同的权重。至于第二个我觉得是有影响的,因为随机森林单个的树一般都是不剪枝充分生长的,数据量多的话为了能够完全拟合数据决策树分裂的深度会更高,当然第二个是我个人见解,仅供参考
点赞 回复 分享
发布于 2018-08-16 23:04

相关推荐

点赞 评论 收藏
分享
评论
点赞
收藏
分享
牛客网
牛客企业服务