2019-07-25 20:45 已编辑郑州轻工业大学 golang

关注

Python3 《机器学习实战》决策树算法

3.1决策树的构造

3.1.1信息增益

划分数据的原则是：将无序的数据变得有序。
香农熵：定义为信息的期盼值，熵值越高，信息越混乱。
计算所有类别所有可能值包含的信息期望值：H = sum(-p(xi)*log2p(xi)) (1<=i<=n) n为分类的数目。
利用python3计算给定数据集香农熵

from math import log
import operator

def calcshannonEnt(dataSet):
    #数据集中的实例个数
    numEntries=len(dataSet)
    #创建一个数据字典
    labelCounts={}
    for featVec in dataSet:
        #将这个字典的兼职设定为最后一列的数值
        currentLabel = featVec[-1]
        #如果这个键值不存在，那么扩展字典将当前的键值加入字典
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel]=0
        #统计每一个键值的出现次数
        labelCounts[currentLabel] +=1
    shannonEnt = 0.0
    #使用所有类标签的发生频率计算类别出现的概率
    for key in labelCounts:
        # 计算当前类别在总类别里的概率
        prob = float(labelCounts[key]) / numEntries
        # log(x,y)代表以y为底x的对数
        shannonEnt -= prob*log(prob,2)
    return shannonEnt

#拟定自己的数据
def createDataSet():
    dataSet=[[1,1,'yes'],
             [1,1,'yes'],
             [1,0,'no'],
             [0,1,'no'],
             [0,1,'no']]
    labels=['no surfacing','flippers']
    return dataSet,labels

测试

import trees
myDat , labels = trees.createDataSet()
print(myDat)
print(trees.calcShannonEnt(myDat))

结果：

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
0.970950594455

得到熵值以后，我们可以按照最大增益的方法划分数据集

3.1.2 划分数据集

上一段中，描述了如何去计算香农熵，学习了如何去度量数据集的无序程度，度量划分数据集的熵，以便于判读是否正确地划分了数据集
按照给定的特征划分数据集

def splitDataSet(dataSet,axis,value):
    #传入一个列表
    retDataSet=[]
    #抽取所有符合条件的元素抽取出来
    for featVec in dataSet:
        if featVec[axis]==value:
            reducedFeatVec=featVec[:axis]#按照axis划分参数集
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

测试结果：

print (myDat)
print(trees.splitDataSet(myDat,0,1))#划分mydata，按照featvec[0] == 1 划分 ；即按照第0(1列)划分出特征为1的
[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
[[1, 'yes'], [1, 'yes'], [0, 'no']]

选择做好的数据集划分方式
遍历整个的数据集，循环计算香农熵和splitDataSet()函数，以此找到最好的划分方法

#实现选取特征，划分数据集，计算得出最好的划分数据集的特征
#函数调用的数据要求：必须是由一种列表元素构成的列表每个列表元素都要有相同的数据长度
#数据的最后一列或者每个实例的最后一个元素为当前实例的标签
def chooseBestFeatureToSplit(dataSet):
    numFeatures=len(dataSet[0])-1
    #计算整个数据集的原始香农熵
    baseEntropy=calcshannonEnt(dataSet)
    beatInfoGain=0.0
    bestFeature=-1
    #创建唯一的分类标签列表
    for i in range(numFeatures):
        featList=[example[i] for example in dataSet]
        uniqueVals=set(featList)
        newEntropy=0.0
        #计算每种划分方式的信息熵
        for value in uniqueVals:
            subDataSet=splitDataSet(dataSet,i,value)
            prob=len(subDataSet)/float(len(dataSet))
            newEntropy+=prob*calcshannonEnt(subDataSet)
        infoGain=baseEntropy-newEntropy
        #计算最好的信息增益
        if(infoGain>beatInfoGain):
            bestInfoGain=infoGain
            bestFeature=i
    return bestFeature

测试结果：

import trees
myDat , labels = trees.createDataSet()
print(trees.chooseBestFeatureToSplit(myDat))
print(myDat)
测试输出：0 #意味着选第0列是最好的划分特征
[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
#可以输出myDat来研究一下

3.1.3 递归构建决策树：

# 多数表决
def majorityCnt(classLIst):
    classCount = {}
    for vote in classLIst:
        if vote not in classCount.keys():
            classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reversed=True)
    # 返回最适合定义的叶子节点
    return sortedClassCount[0][0]


def createTree(dataSet, labels):
    # 创建包含数据集所有类标签的列表
    classList = [example[-1] for example in dataSet]
    # 类别如果完全相同则停止继续划分
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    # 如果所有特征都被使用完，则利用投票方法选举出类标签返回
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    # 获取最好的数据集划分方式
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel: {}}
    # 删除结点递归
    del (labels[bestFeat])
    featValues = [example[bestFeat] for example in dataSet]
    # 得到列表包含的所有属性值
    uniqueVals = set(featValues)
    for value in uniqueVals:
        #复制了类标签，将其存储在新列表变量subLabels中
        subLabels = labels[:]
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)
    return myTree

测试结果：

import trees
myDat , labels = trees.createDataSet()
myTree = trees.createTree(myDat,labels)
print(myTree)
效果：{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

感谢学长代码的注释能够让我更快的理解
https://blog.csdn.net/qq_33638791/article/details/53324364

全部评论

推荐最新楼层

06-24 13:22

已编辑

天津大学 Java

挑战最晚暑期实习

找了3个月的实习，已经数不清投了多少简历了，大概一大半都是简历挂了，另外的一面、二面、三面、hr面都有挂的，给鼠鼠挂麻了，终于今天接到offer了。给大家分享一下这次找实习的经验吧。我投的算比较早的，从3月份就开始投了，但是之前没有贯彻执行海投战术，过几天都挑着投几家，还是太有自信了，导致前面的挂了，后面的又要找新的投，所以越拖越晚，导致到6月份开始投的公司都不回应了，所以一定要从开始就海投，管他什么先投上，等到有保底了才能放松，找工作实在是个玄学的事情，虽然可能是我实力不足，但还是希望大家引以为鉴。面试确实是一个慢慢积累经验的过程，尤其是在关于项目和科研经历上，多面试才能发现自己地理解在哪有...

ggg9：接好运

实习，投递多份简历没人回复怎么办我的OC时间线

点赞评论收藏

分享

不愿透露姓名的神秘牛友

06-26 21:00

研二下六月底找不到实习了

现在投递，似乎都不会被hr打开了，大家也是一样吗？焦虑中……uu们，我投了两天，接到两个面试，只面了一个手机厂，第二天就拿到offer了，下一站出发深圳！

点赞评论收藏

分享

05-28 12:47

华北水利水电大学 Java

不是这些是该我一个实习生写的吗

还只是笔试题 看了一眼一点做的欲望都没有

iiooz：干嘛，招架构师吗

点赞评论收藏

分享

不愿透露姓名的神秘牛友

06-25 17:33

腾讯暑期：灰👉🏻绿（求约面...

3月份面试挂了之后，一直灰，这两天突然变绿... 想问下大家，变绿是我投递的部门看了简历还是其他部门也有可能？ 这时候换意向会有影响吗？

在泡澡的咸鱼很幸福：变绿就是被部门锁了，一般三天内就约面了

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 26届校招投递进展 #

26871次浏览 215人参与

# 烟草笔面经互助 #

16734次浏览 180人参与

# 现代汽车前瞻技术研发急速编程挑战赛 #

7435次浏览 96人参与

# 为了找工作你花了哪些钱？ #

26691次浏览 256人参与

# 你今年的保底offer是哪家 #

117999次浏览 536人参与

# 你觉得技术面多长时间合理？ #

96388次浏览 707人参与

# 你觉得专业和学校哪个对薪资影响最大 #

61184次浏览 488人参与

# kpi面有什么特征 #

51940次浏览 402人参与

# 牛友们，签完三方你在忙什么？ #

98079次浏览 852人参与

# 听到哪句话就代表面试稳了or挂了？ #

170633次浏览 1367人参与

# 如何缓解入职前的焦虑 #

192158次浏览 1338人参与

# 打工人的精神状态 #

49146次浏览 856人参与

# 查收我的offer竞争力报告 #

189405次浏览 1265人参与

# 通信/硬件公司求职体验 #

121485次浏览 860人参与

# 选完offer后，你后悔学本专业吗 #

46214次浏览 234人参与

# 你秋招想去哪些公司 #

21424次浏览 796人参与

# 你后悔选择现在的专业吗 #

83745次浏览 676人参与

# 机械人春招想让哪家公司来捞你？ #

344361次浏览 3078人参与

# 外包能不能当跳板？ #

34187次浏览 214人参与

# 牛友的志愿填报指南 #

26816次浏览 167人参与

# 地方国企笔面经互助 #

31052次浏览 105人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务