python中文词云分析
准备
- python环境
- python第三方库
- worldcloud
- jieba
- matplotlib
- 字体
- 需要分析的文本
—————————————————————————————————
python环境
在python官网下载适合自己的python版本,我自己用的是Windows操作系统,下载的是3.7版本
集成开发环境使用的是pycharm
https://www.jetbrains.com/pycharm/
python第三方库
worldcloud
Windows安装worldcloud稍微繁琐些,主要分为两个步骤
1.下载库(选择适合自己的版本)
https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud
2.将安装包放到一个你能找到的目录下(方便找到的)并在命令行(CMD)执行下面的命令
先执行:
pip install wheel
再执行:
pip install 你下载的包名
直接在命令行(CMD)执行
pip install jieba
matplotlib
同理在命令行(CMD)执行
pip install matplotlib
字体
本次使用simsun.ttf(宋体)下载链接如下:
https://link.zhihu.com/?target=https%3A//s3-us-west-2.amazonaws.com/notion-static/b869cb0c7f4e4c909a069eaebbd2b7ad/simsun.ttf
需要分析的文本
这个自己准备就好,这部分的数据处理也是一个重点
代码
import jieba filename = "a.txt" with open(filename,'r') as f: mytext = f.read() mytext = " ".join(jieba.cut(mytext)) from wordcloud import WordCloud wordcloud = WordCloud(font_path="simsun.ttf").generate(mytext) #%pylab inline import matplotlib.pyplot as plt plt.imshow(wordcloud, interpolation='bilinear') plt.axis("off") plt.show()
最后会直接生成被分析文本的词云图:
总结
总体来说操作还是比较简单的,后续的优化可以从词云图的样式(字体,形状)进行优化,还有就是分析数据的处理工作也是一个重点,不过就不在这部分介绍了。