2020-09-22 21:50 已编辑门头沟学院产品经理

关注

【数据分析学习笔记day30】自然语言处理NLTK+文本相似度和分类 +文本相似度案例+文本分类+ TF-IDF +（词频-逆文档频率）+ 案例

文章目录

文本相似度和分类
- - - 文本相似度案例：
文本分类
- - TF-IDF （词频-逆文档频率）
- 案例：

文本相似度和分类

度量文本间的相似性
使用词频表示文本特征
文本中单词出现的频率或次数
NLTK实现词频统计

文本相似度案例：

import nltk
from nltk import FreqDist

text1 = 'I like the movie so much '
text2 = 'That is a good movie '
text3 = 'This is a great one '
text4 = 'That is a really bad movie '
text5 = 'This is a terrible movie'

text = text1 + text2 + text3 + text4 + text5
words = nltk.word_tokenize(text)
freq_dist = FreqDist(words)
print(freq_dist['is'])
# 输出结果：
# 4


# 取出常用的n=5个单词
n = 5
# 构造“常用单词列表”
most_common_words = freq_dist.most_common(n)
print(most_common_words)
# 输出结果：
# [('a', 4), ('movie', 4), ('is', 4), ('This', 2), ('That', 2)]



def lookup_pos(most_common_words):
    """ 查找常用单词的位置 """
    result = {
   }
    pos = 0
    for word in most_common_words:
        result[word[0]] = pos
        pos += 1
    return result

# 记录位置
std_pos_dict = lookup_pos(most_common_words)
print(std_pos_dict)
# 输出结果：
# {'movie': 0, 'is': 1, 'a': 2, 'That': 3, 'This': 4}


# 新文本
new_text = 'That one is a good movie. This is so good!'
# 初始化向量
freq_vec = [0] * n
# 分词
new_words = nltk.word_tokenize(new_text)

# 在“常用单词列表”上计算词频
for new_word in new_words:
    if new_word in list(std_pos_dict.keys()):
        freq_vec[std_pos_dict[new_word]] += 1

print(freq_vec)
# 输出结果：
# [1, 2, 1, 1, 1]

文本分类

TF-IDF （词频-逆文档频率）

TF, Term Frequency（词频），表示某个词在该文件中出现的次数
IDF，Inverse Document Frequency（逆文档频率），用于衡量某个词普遍的重要性。
TF-IDF = TF * IDF

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iTeE7TKD-1579959553196)(…/images/TF.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-b3gOQecn-1579959553197)(…/images/IDF.png)]

举例假设:

一个包含100个单词的文档中出现单词cat的次数为3，则TF=3/100=0.03

样本中一共有10,000,000个文档，其中出现cat的文档数为1,000个，则IDF=log(10,000,000/1,000)=4

TF-IDF = TF IDF = 0.03 4 = 0.12

NLTK实现TF-IDF

TextCollection.tf_idf()

案例：

from nltk.text import TextCollection

text1 = 'I like the movie so much '
text2 = 'That is a good movie '
text3 = 'This is a great one '
text4 = 'That is a really bad movie '
text5 = 'This is a terrible movie'

# 构建TextCollection对象
tc = TextCollection([text1, text2, text3, 
                        text4, text5])
new_text = 'That one is a good movie. This is so good!'
word = 'That'
tf_idf_val = tc.tf_idf(word, new_text)
print('{}的TF-IDF值为：{}'.format(word, tf_idf_val))

执行结果：

That的TF-IDF值为：0.02181644599700369

全部评论

推荐最新楼层

11-20 15:36

北京外国语大学产品经理

大家一定要珍惜秋招的机会啊

最近我发现秋招的机会越来越少，更新的岗位也变得稀少。每次都要花很久才能找到合适的职位，心里有些焦虑。大家一定要珍惜每一个机会，不仅要认真投递简历，面试的准备也不能马虎！加油，大家一起努力！

牛客创作赏金赛

点赞评论收藏

11-22 00:56

天津大学汽车设计

2024史上最难毕业季

今年有1179万新毕业生涌入市场，竞争可谓异常激烈，大学生的平均就业率仅有55%。我时常感到焦虑，尤其是看到网上的数据：4667万的求职者，却只有350万的付费招聘客户。每一个offer都像是稀世珍宝，我还在努力争取中。没拿到offer的朋友们，别气馁，一定能找到寻找属于我们的机会！

缘愁似个长a：55％很高了，四非硕信院签约率25％

牛客创作赏金赛

点赞评论收藏

10-30 13:45

南京理工大学 C++

幽默深信服

开出来仨瓜俩枣还要逼签

懂了哥：卓越雇主

点赞评论收藏

不愿透露姓名的神秘牛友

11-24 20:55

校招Offer选择：阿里国际、京东、虾皮、华为、路过

阿里国际 Java工程师 2.7k*16.0

程序员猪皮：没有超过3k的，不太好选。春招再看看

点赞评论收藏

点赞收藏评论

全站热榜

正在热议

# 如果有时光机，你最想去到哪个年纪？ #

21532次浏览 393人参与

# 选完offer后，你后悔学本专业吗 #