随机森林
- 袋外数据OOB:在每一轮训练中有36.8%的数据不会被抽取到
- 袋外数据错误率:参考https://www.cnblogs.com/zhangzhixing/p/11150317.html
- 调参方法:
- 常用参数:n_estimators决策树的个数、每棵树最大特征数(max_features) 一般用sqrt(总特征数)、最大树深度”(max_depth)、“分裂所需最小样本数”(min_samples_split)所需样本越少意味着模型越复杂
- 网格化搜索:sklearn 提供了相应的方GridSearchCV,穷举找到全局最优的参数,但计算复杂度较高,适合小规模的问题
- 贪心的坐标下降搜索:固定其他参数,将一个参数调整到最好,这样循环一轮,优点是搜索规模小,但得到的可能不是全局最优值
- 随机网格化搜索