阿里机器学习岗位xgboost和随机森林模型两个问题求解答

1.xgboost怎么处理高维稀疏数据?
2.数据标签值都在0-1000范围之内,随机森林和gbdt做回归的值能否超过1000.,

昨天进行了阿里巴巴的暑期实习面试,问到了以上两个问题,没有回答上来,想问一下有没有人可以解答一下的,非常感谢!
#阿里巴巴##机器学习#
全部评论
第一个问题,,(不太确定),我的理解就是把稀疏当成缺失,会分别计算把缺失样本分到左右子树时的损失减少,然后取损失减少多的那个方向作为这个feature的默认方向。
点赞 回复 分享
发布于 2019-04-02 11:36
rf不会超过1000,gbdt不太确定,之前做过一个数据范围在0到100的,用xgboost有负值
点赞 回复 分享
发布于 2019-04-02 12:53
第一个问题我也想问XGBoost把稀疏数据当成缺失值去处理,这个感觉有点不太一致 第二个问题rf应该是不会超过1000,因为结点的值是属于该结点的样本的平均值,但是感觉gbdt应该会吧,是用负梯度拟合残差,这个残差可能是负值吧
点赞 回复 分享
发布于 2019-04-02 14:46
点赞 回复 分享
发布于 2019-04-02 10:36
第一题可以去看陈天奇那篇paper的3.4 xgboost-a scalable tree boosting system
点赞 回复 分享
发布于 2019-04-02 10:59
收藏一下
点赞 回复 分享
发布于 2019-04-02 12:50

相关推荐

点赞 41 评论
分享
牛客网
牛客企业服务