ID3算法要求特征必须离散化
信息增益可以用熵,而不是GINI系数来计算
选取信息增益最大的特征,作为树的根节点
ID3算法是一个二叉树模型
1) 所有属性必须为离散量;
2) 所有的训练例的所有属性必须有一个明确的值;
3) 相同的因素必须得到相同的结论且训练例必须唯一。
Iterative Dichotomiser,该算法使用的是信息增益作为分支选择特征的标准。
C4.5选择是利用信息增益比来作为特征的选择标准。
gini系数的一种理解方式可以结合方差来考虑,假设有KKKK个类,样本点属于第 类的概率为 ,Gini的定义如下:
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题
ID3 算法生成的决策树是一棵多叉树,分支的数量取决于分裂属性有多少 个不同的取值。