知识点记录(四)——机器学习相关基础
1.信息增益,信息增益率与Gini系数
- 信息熵 plogp求和
- 信息增益
- 信息增益率
- Gini系数 1-p^2
- 精确率与召回率(Precision and Recall)
- 精确率:预测为真中真正为真的
- 召回率:为真的样本被预测正确的比率
- bagging与boosting
- bagging:每次训练一个模型,分类问题进行投票,回归问题进行平均值计算
- boosting:不断训练模型拟合前一个模型的残差
- bagging降低方差(variance),boosting降低偏差(bias)
- 如何解决过拟合问题
- 获取更多数据
- 使用合适的模型,减少网络层数或神经元个数
- 正则化(L1,L2正则): L1正则:倾向于产生少量特征,其他特征为0,增加网络稀疏程度; L2正则:选择更多特征,这些特征都趋向于0,使用更多 可以从L1,L2正则公式入手理解,L1为特征绝对值之和,L2为平方和,求导以后的函数图像
- dropout:神经元随机失活,减少固定神经元之间的关联,类似于bagging策略
- 提前停止