疯狂的指针

2019-07-24 17:51 已编辑华中科技大学 C++

关注

词频分析--字典树的应用

词频分析–字典树的应用

字典树又称单词查找树，Trie树，前缀树，是一种树形结构，是一种哈希树的变种。
典型应用是用于统计，排序和保存大量的字符串所以经常被搜索引擎系统用于文本词频统计。
它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。
下面我们来用python应用字典树实现词频分析
首先我们定义一个节点，
节点包括三部分内容，1是字符，2是该字符出现的频次，3是这个字符的子节点，因为英文字母一共26个(不区分大小写)
因此，每一个节点最多有26个子节点。

# 节点结构
class node:
    def __init__(self):
        self.value = 0
        self.child = [0 for i in range(26)]
        self.freq = 0

然后我们定义如下规则来构建一棵树

根节点不包含字符，除根节点外的每一个子节点都包含一个字符和该字符出现的频次，
从根节点到某一节点，路径上经过的字符连接起来，就是该节点对应的字符串。
每个单词的公共前缀作为一个字符节点保存。

比如对于hello这个单词，我们构建6个节点(一个根节点，五个子节点)，从h->e->l->l->o,后一个节点依次是前一个节点的子节点，h节点是根节点的子节点。
根据这三条规则，假设我们有如下10个单词

a am am inn in i to tea ted ten

那么我们可以构建出入下图所示的字典树

显然，各个单词出现的频次如下:

(a,1),(am,2),(inn,1),(in,1),(i,1),(to,1),(tea,1),(ted,1),(ten,1)

好了，现在看看代码是如何实现的

# 定义节点，value表示当前字符，child表示下一个节点，下一个节点有a-z 26种可能性，
# 因此建立一个26个元素的列表，freq表示出现的频次
class node:
    def __init__(self):
        self.value = 0
        # self.child= []
        self.child = [0 for i in range(26)]
        self.freq = 0
# 定义字典树
class tree:
    # 初始化树
    def __init__(self):
        self.root = node()
    # 插入单词
    def insert_word(self,word):
        chars = list(word)
        p = self.root
        for v in chars:
            v = v.lower()
            if (p.child[ord(v) - ord('a')] == 0):
                s = node()
                s.value = v
                s.freq = 1
                p.child[ord(v) - ord('a')] = s                
            else:
                # 插入节点时，每经过一个节点，该节点频次加1
                p.child[ord(v) - ord('a')].freq += 1
            p = p.child[ord(v) - ord('a')]
    # 判断子节点是否为空
    def is_child_null(self, node):
        for i in range(26):
            if node.child[i] != 0:
                return False
        return True
    # 子节点频次之和
    def child_freq_sum(self,node):
        cnt = 0
        for i in range(26):
            if node.child[i] != 0:
                cnt += node.child[i].freq
        return cnt
    # 查找某个单词出现的频次
    def find_word(self,word):
        p = self.root
        cnt = 0
        chars = list(word)
        for v in chars:
            v = v.lower()
            if p.child[ord(v) - ord('a')] == 0 :
                cnt = 0
                return 0
            else: 
                p = p.child[ord(v) - ord('a')]
                # 查找时，每经过一个节点，将cnt置为该节点的频次
                cnt = p.freq
        # 查找完单词的最后一个字符，判断该节点是否为根节点，
        # 如果不是根节点，需要cnt需要减去改节点的所有子节点频次之和
        if not self.is_child_null(p):
            cnt = cnt - self.child_freq_sum(p)
        return cnt

来检查一下运行结果是否正确，新建一个文件1.txt,内容写入

a am am inn in 
i to tea ted ten

执行下面这段代码

from TrieTree import node, tree

if __name__ == '__main__':
    f = open('1.txt', 'r')
    l = f.read()
    l = l.split()
    res = tree()
    # res.init_tree()
    for v in l:
        res.insert_word(v)
    l = set(l)
    for v in l:
        cnt = res.find_word(v)
        print("%s:%d"%(v,cnt))

执行结果如图

可见程序运行正确，拿其他的数据测试，一样可以得到正确的结果。

代码下载

https://github.com/zkangHUST/DataStructure/tree/master/TrieTree

全部评论

推荐最新楼层

今天 11:52

广州大学华软软件学院网络客服

仿青藤之恋社交交友软件即时通讯聊天微信小程序 App

 《欧几里》是一款一比一模仿《青藤之恋》的社交交友软件开源项目，主打高学历优质人群交友，功能上基本还原青藤之恋，以双向喜欢后解锁聊天，目前适配微信小程序，手机App，H5，三端通用，功能完整，盈利模式完善，高度配置化，功能模块化，高内聚，低耦合，一天快速上线，已对接支付接口，只需要简单的修改配置文件中相关信息，即可实现快速部署上线，减少开发的时间成本，金钱成本，技术成本，将更多的精力放在产品运营上。仅供学习研究之用，请勿商用，商用请支持正版演示地址：H5演示地址https://www.wxmblog.com/oujili安卓APK下载地址：https://www.wxmblog.com/de...

点赞评论收藏

分享

11-20 16:28

北京联合大学增长产品

秋招被确诊为人才

今天国家电网和中石油都给我打电话问我要不要来，免笔试，面试通过即可录用，通过率80%以上，岗位空缺很大，问我有没有什么比较优秀的同学也可以推荐过去，现在国家处于发展的关键期，正是需要人才的时候。字节和京东刚刚也把我从人才库里捞起来了，问我还有没有意愿去。薪资的话国企稍微低一点，但是福利待遇好！不用加班，管吃，单位分配房子，字节和京东虽然别的待遇差一点，但是薪资水平高出了国企一大截！求助牛油们帮忙选选，我该去哪个呢？

Tisane_CN：遮沙避风了

投递中国石油等公司10个岗位 > 秋招被确诊为……

点赞评论收藏

分享

10-05 23:02

东北大学 Java

很难想象仅仅过去了4年找工作的难度就大不一样

我说句实话啊：那时候看三个月培训班视频，随便做个项目背点八股，都能说3 40w是侮辱价

点赞评论收藏

分享

11-13 15:20

门头沟学院前端工程师

麻麻我出息了

我也是能硬气到拒bytedance了😇

死在JAVA的王小美：哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈，我也是，让我免了一轮，但是硬气拒绝了

点赞评论收藏

分享

今天 00:38

南京大学 Java

深度思考后拒绝了offer

接到offer的那天，我心中矛盾重重，虽然证明了我的能力，但我却不想做不喜欢的工作。经过深思熟虑，我决定拒绝这份看似不错的工作。未来的日子里，我希望能勇敢追求自己真正想做的事情。再过两个月我就25岁了，我不想为不喜欢的选择而后悔。春招见！

牛客创作赏金赛

点赞评论收藏

分享

点赞收藏评论

全站热榜

正在热议

# 晒一晒我的offer #

9720734次浏览 104913人参与

# 学历or实习经历，哪个更重要 #

39731次浏览 290人参与

# 北方华创开奖 #

21914次浏览 250人参与

# 地方国企笔面经互助 #

2320次浏览 6人参与

# 应届生被毁约被毁意向了怎么办 #

25450次浏览 234人参与

# 你最想要的公司福利是？ #

37553次浏览 70人参与

# 查收我的offer竞争力报告 #

14969次浏览 207人参与

# 机械应届生薪资要多少才合适？ #

12154次浏览 59人参与

# 一觉醒来，我觉醒了超级打工人系统 #

2547次浏览 32人参与

# 没有实习经历，还有机会进大厂吗 #

803790次浏览 13785人参与

# 我的工作日记 #

20773次浏览 269人参与

# 你觉得第一学历对求职有影响吗？ #

14693次浏览 121人参与

# 寒假躺平还是提前实习 #

57593次浏览 420人参与

# 总结:哪家公司面试体验感最差 #

24365次浏览 118人参与

# 公司情报交流地 #

31351次浏览 222人参与

# 选完offer后，你后悔学本专业吗 #

7868次浏览 47人参与

# 不给转正的实习，你还去吗 #

1514274次浏览 16948人参与

# 实习，投递多份简历没人回复怎么办 #

2385759次浏览 34238人参与

# 00后45度躺现状 #

37469次浏览 306人参与

# 机械人，签完三方你在忙什么？ #

23509次浏览 121人参与

# 秋招OC许愿 #

225176次浏览 1858人参与

牛客网
牛客企业服务