《数据挖掘概念与技术》第八章 分类:基本概念
分类
本章中讲到了三种分类方法:
决策树分类
在决策树分类中详细介绍了三种决策树的属性选择度量:
信息增益
分区D为标记类元组的训练集。
D的熵,即所需要的期望信息为:
按某属性A划分D,则该期望值为:
属性A的信息增益值为:
ID3采用信息增益。
信息增益度量偏向于具有许多输出的测试,即偏向具有大量值的属性。
增益率
但若每个属性的元组个数为1,此时的信息增益无法对属性的划分提供有效信息。
以属性A划分D,划分点的值:
增益率:
C4.5采用增益率。
增益率的出现即试图克服信息增益的偏倚。但增益率倾向于产生不平衡的划分,其中一个分区比其他分区小得多。
信息增益度量关于分类基于同样划分的所获得的信息。
Gini指数
Gini指数定义为:
、
以属性A划分的基尼指数为:
属性A的不纯度为:
CART使用基尼指数。
基尼指数度量数据分区或训练元组集D的不纯度。最终选择基尼指数最小的指数,会产生较大的不纯度。
基尼指数偏向于多值属性,并且当类的数量过大时,由于计算量较大,会有困难。倾向于导致相等大小的分区和纯度。
朴素贝叶斯分类
首先介绍贝叶斯定理中的基本概念:
即将预测X 具有最高后验概率的类。
后验概率
P(H|X)是后验概率。或在条件X下,H的后验概率。假设数据元组限于分别由属性age和income描述的顾客,而X是一位25岁,收入为4万元的顾客。令H为某种假设,如顾客将购买计算机。
则P(H|X)反映当已知顾客X的属性值时,顾客X购买计算机的概率。
先验概率
P(H),H的先验概率。是任意给定顾客将购买计算机的概率,而不管他们的年龄、收入等。P(H)独立于X。
朴素贝叶斯朴素在哪里?
朴素贝叶斯假定一个属性值在给定类上的影响独立于其他属性的值。这一假定成为类条件独立性。
也就是简化了P(X|H)的计算。
对于存在零概率值时,应如何处理?
拉普拉斯估计法:对q个类的计数都加上1,在对应分母上都加上q。
IF-THEN规则分类
模型评估与选择
评估分类器性能度量
混淆矩阵用来评估分类器的质量,对于二分类问题,它显示真正例TP、真负例TN、假正例FP、假负例FN。
而评估性能度量包括:
准确率、灵敏度(召回率)、特效性、精度、F1和Fp。
当感兴趣的主类占少数时,过分依赖准确率度量可能受骗。
3%例子。
数据集划分
- 保持
- 随机抽样
- 交叉验证(k-fold)
- 自助法
显著性检验和ROC、AUC曲线
显著性检验用来评估两个分类器准确率的差别是否出于偶然。(这个很有用)
ROC曲线绘制一个或多个分类器的真正例率与假正例率。
提升模型准确度:组合方法
- 装袋(有放回抽样)
- 提升(有权重)
- 随机森林(决策树)
类不平衡问题
- 过抽样和欠抽样
- 阈值移动
- 组合技术