TextRank算法是一种基于图的用于关键词抽取和文档摘要的排序算法，由谷歌的网页重要性排序算法PageRank算法改进而来，它利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词，它能够从一个给定的文本中抽取出该文本的关键词、关键词组，并使用抽取式的自动文摘方法抽取出该文本的关键句。

TextRank算法的基本思想是将文档看作一个词的网络，该网络中的链接表示词与词之间的语义关系。

TextRank算法计算公式：

TextRank算法论文：TextRank: Bringing Order into Texts

TextRank算法主要包括：关键词抽取、关键短语抽取、关键句抽取。

（1）关键词抽取（keyword extraction）

关键词抽取是指从文本中确定一些能够描述文档含义的术语的过程。对关键词抽取而言，用于构建顶点集的文本单元可以是句子中的一个或多个字；根据这些字之间的关系（比如：在一个框中同时出现）构建边。根据任务的需要，可以使用语法过滤器（syntactic filters）对顶点集进行优化。语法过滤器的主要作用是将某一类或者某几类词性的字过滤出来作为顶点集。

（2）关键短语抽取（keyphrase extration）

关键词抽取结束后，我们可以得到的N个关键词，在原始文本中相邻的关键词构成关键短语。因此，从get_keyphrases函数的源码中我们可以看到，它先调用get_keywords抽取关键词，然后分析关键词是否存在相邻的情况，最后确定哪些是关键短语。

（3）关键句抽取（sentence extraction）

句子抽取任务主要针对的是自动摘要这个场景，将每一个sentence作为一个顶点，根据两个句子之间的内容重复程度来计算他们之间的“相似度”，以这个相似度作为联系，由于不同句子之间相似度大小不一致，在这个场景下构建的是以相似度大小作为edge权重的有权图。

3、TextRank算法实现

（1）基于Textrank4zh的TextRank算法实现

# coding=utf-8
from textrank4zh import TextRank4Keyword, TextRank4Sentence
import jieba.analyse
from snownlp import SnowNLP
import pandas as pd
import numpy as np

#关键词抽取
def keywords_extraction(text):
    tr4w = TextRank4Keyword(allow_speech_tags=['n', 'nr', 'nrfg', 'ns', 'nt', 'nz'])
    # allow_speech_tags   --词性列表，用于过滤某些词性的词
    tr4w.analyze(text=text, window=2, lower=True, vertex_source='all_filters', edge_source='no_stop_words',
                 pagerank_config={'alpha': 0.85, })
    # text    --  文本内容，字符串
    # window  --  窗口大小，int，用来构造单词之间的边。默认值为2
    # lower   --  是否将英文文本转换为小写，默认值为False
    # vertex_source  -- 选择使用words_no_filter, words_no_stop_words, words_all_filters中的哪一个来构造pagerank对应的图中的节点
    #                -- 默认值为`'all_filters'`，可选值为`'no_filter', 'no_stop_words', 'all_filters'
    # edge_source  -- 选择使用words_no_filter, words_no_stop_words, words_all_filters中的哪一个来构造pagerank对应的图中的节点之间的边
    #              -- 默认值为`'no_stop_words'`，可选值为`'no_filter', 'no_stop_words', 'all_filters'`。边的构造要结合`window`参数

    # pagerank_config  -- pagerank算法参数配置，阻尼系数为0.85
    keywords = tr4w.get_keywords(num=6, word_min_len=2)
    # num           --  返回关键词数量
    # word_min_len  --  词的最小长度，默认值为1
    return keywords

#关键短语抽取
def keyphrases_extraction(text):
    tr4w = TextRank4Keyword()
    tr4w.analyze(text=text, window=2, lower=True, vertex_source='all_filters', edge_source='no_stop_words',
                 pagerank_config={'alpha': 0.85, })
    keyphrases = tr4w.get_keyphrases(keywords_num=6, min_occur_num=1)
    # keywords_num    --  抽取的关键词数量
    # min_occur_num   --  关键短语在文中的最少出现次数
    return keyphrases

#关键句抽取
def keysentences_extraction(text):
    tr4s = TextRank4Sentence()
    tr4s.analyze(text, lower=True, source='all_filters')
    # text    -- 文本内容，字符串
    # lower   -- 是否将英文文本转换为小写，默认值为False
    # source  -- 选择使用words_no_filter, words_no_stop_words, words_all_filters中的哪一个来生成句子之间的相似度。
    # 		  -- 默认值为`'all_filters'`，可选值为`'no_filter', 'no_stop_words', 'all_filters'
    # sim_func -- 指定计算句子相似度的函数

    # 获取最重要的num个长度大于等于sentence_min_len的句子用来生成摘要
    keysentences = tr4s.get_key_sentences(num=3, sentence_min_len=6)
    return keysentences


def keywords_textrank(text):
    keywords = jieba.analyse.textrank(text, topK=6)
    return keywords


if __name__ == "__main__":
    text = "来源：中国科学报本报讯（记者肖洁）又有一位中国科学家喜获小行星命名殊荣！4月19日下午，中国科学院国家天文台在京举行“周又元星”颁授仪式，" \
           "我国天文学家、中国科学院院士周又元的弟子与后辈在欢声笑语中济济一堂。国家天文台党委书记、" \
           "副台长赵刚在致辞一开始更是送上白居易的诗句：“令公桃李满天下，何须堂前更种花。”" \
           "据介绍，这颗小行星由国家天文台施密特CCD小行星项目组于1997年9月26日发现于兴隆观测站，" \
           "获得国际永久编号第120730号。2018年9月25日，经国家天文台申报，" \
           "国际天文学联合会小天体联合会小天体命名委员会批准，国际天文学联合会《小行星通报》通知国际社会，" \
           "正式将该小行星命名为“周又元星”。"
    #关键词抽取
    keywords=keywords_extraction(text)
    print(keywords)

    #关键短语抽取
    keyphrases=keyphrases_extraction(text)
    print(keyphrases)

    #关键句抽取
    keysentences=keysentences_extraction(text)
    print(keysentences)

运行结果：

（2）基于jieba的TextRank算法实现

if __name__ == "__main__":
    text = "来源：中国科学报本报讯（记者肖洁）又有一位中国科学家喜获小行星命名殊荣！4月19日下午，中国科学院国家天文台在京举行“周又元星”颁授仪式，" \
           "我国天文学家、中国科学院院士周又元的弟子与后辈在欢声笑语中济济一堂。国家天文台党委书记、" \
           "副台长赵刚在致辞一开始更是送上白居易的诗句：“令公桃李满天下，何须堂前更种花。”" \
           "据介绍，这颗小行星由国家天文台施密特CCD小行星项目组于1997年9月26日发现于兴隆观测站，" \
           "获得国际永久编号第120730号。2018年9月25日，经国家天文台申报，" \
           "国际天文学联合会小天体联合会小天体命名委员会批准，国际天文学联合会《小行星通报》通知国际社会，" \
           "正式将该小行星命名为“周又元星”。"

    # 基于jieba的textrank算法实现
    keywords=keywords_textrank(text)
    print(keywords)

运行结果：

（3）基于SnowNLP的TextRank算法实现

    # 基于SnowNLP的textrank算法实现
    snlp=SnowNLP(text)
    print(snlp.keywords(6))  #关键词抽取
    print(snlp.summary(3))   #关键句抽取

运行结果：

4、PageRank算法与TextRank算法的区别

PageRank算法根据网页之间的链接关系构造网络，TextRank算法根据词之间的共现关系构造网络；
PageRank算法构造的网络中的边是有向无权边，TextRank算法构造的网络中的边是无向有权边。

参考：TextRank算法的基本原理及textrank4zh使用实例

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

昨天 23:55

南京银行工作感受

总行和网点差别大。总行岗位资源丰富，网点的待遇就差很多。但压力都大，都是996的节奏。工资嘛，那些高数字其实都是被高层拉高了，实际到手的就那样。对于我们这些普通人来说，年薪20万已经算不错了，但大部分钱都在公积金里，像买房买车要等好久。

投递南京银行等公司10个岗位 >

点赞评论收藏

11-30 19:12

已编辑

影石创新科技股份有限公司_测试开发工程师

12月了，25届同学可以考虑准备找实习冲春招了！！

哈喽，大家好，最近看到很多25届的小伙伴都陆续开奖了，也是恭喜这些小伙伴在今年这么内卷的环境下成功上岸，但是目前0offer的同学依然是很多，那么目前绝大部分公司的秋招流程都已经陆续结束了，官网投递通道已经早早关闭了，很多小伙伴已经有了准备春招的打算了，那么今天就给大家分享一下春招的一些注意事项一、明确如何准备春招？1.春招的时间是在 25年的3-5月份，到时候流程和秋招差不多，很多大厂有自己的招聘公众号，到时候会发文春招开始的时间，然后大家去官网投递简历即可，很多小伙伴秋招已经投过一遍了，到时候要记得更新简历欧~ 2.其实这个是正常流程的招聘时间，春招是一直持续到你毕业之前为止的，...

点赞评论收藏

11-15 18:39

已编辑

西安交通大学 Java

悬着的心终于死了。东子

东哥

全村最靓的仔仔：卧槽，佬啥bg呢，本也是西交么

点赞评论收藏

10-10 21:38

湖南文理学院 Web前端

哥们就先上岸了。各位加油

#你最希望上岸的公司是？# 四个月实习转正😍知无不言

改名许愿offer：学院之光

你最希望上岸的公司是？

点赞评论收藏

11-28 17:01

已编辑

北京理工大学机械结构工程师

寒假实习租房攻略！北京版

时间过得可真快呀，转眼我又该换房子了，我房子是一年一换，目前换了两次，还没有遇到让自己特别满意的房子，可能是自己越来越挑剔了，看不上精装房、看不上整租、看不上情侣合租、看不上神经房东，我上周刚刚换完房子，不得不说北京的房租真是越来越离谱，我来分享一些自己租房的小攻略吧~不要租一楼和楼顶尤其是冬天，这里说一下咱们是租房不是买房，所以不用听中介对你说住在一楼多么多么的方便；现在的小区基本都是双电梯，所以等电梯的问题会减少很多。一楼不安全、潮湿、蚊子多、光线不好、很吵，顶楼很热，夏天空调会很贵，高楼层7-15楼位置最好。比较好的朝向是东南、正南、西南，但是北京租房的话，阳光都是要收费的！所以我会在晴...

不早不晚刚刚好：流量太差，美照镇楼

租房前辈的忠告你的房租占工资的比例是多少？

点赞评论收藏

全站热榜

正在热议

# 如果你有一天可以担任公司的CEO，你会做哪三件事？ #

# 如果公司给你放一天假，你会怎么度过？ #

# 参加完秋招的机械人，还参加春招吗？ #

20183次浏览 240人参与

# 我的上岸简历长这样 #

452140次浏览 8091人参与