小水滴真的是太可爱了吧

2020-09-22 21:50 门头沟学院产品经理

关注

【数据分析学习笔记day29】自然语言处理NLTK+情感分析+ 自然语言处理(NLP)+ 简单的情感分析+ 案例+使用机器学习实现

文章目录

情感分析

情感分析

自然语言处理(NLP)

将自然语言（文本）转化为计算机程序更容易理解的形式
预处理得到的字符串 -> 向量化
经典应用
1. 情感分析
2. 文本相似度
3. 文本分类

简单的情感分析

情感字典（sentiment dictionary）
- 人工构造一个字典，如： like -> 1, good -> 2, bad -> -1, terrible-> -2
- 根据关键词匹配
如 AFINN-111： http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010，虽简单粗暴，但很实用
问题：

遇到新词，特殊词等，扩展性较差

使用机器学习模型，nltk.classify

案例：使用机器学习实现

# 简单的例子

import nltk
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
from nltk.classify import NaiveBayesClassifier

text1 = 'I like the movie so much!'
text2 = 'That is a good movie.'
text3 = 'This is a great one.'
text4 = 'That is a really bad movie.'
text5 = 'This is a terrible movie.'

def proc_text(text):
    """ 预处处理文本 """
    # 分词
    raw_words = nltk.word_tokenize(text)

    # 词形归一化
    wordnet_lematizer = WordNetLemmatizer()    
    words = [wordnet_lematizer.lemmatize(raw_word) for raw_word in raw_words]

    # 去除停用词
    filtered_words = [word for word in words if word not in stopwords.words('english')]

    # True 表示该词在文本中，为了使用nltk中的分类器
    return {
   word: True for word in filtered_words}

# 构造训练样本
train_data = [[proc_text(text1), 1],
              [proc_text(text2), 1],
              [proc_text(text3), 1],
              [proc_text(text4), 0],
              [proc_text(text5), 0]]

# 训练模型
nb_model = NaiveBayesClassifier.train(train_data)

# 测试模型
text6 = 'That is a bad one.'
print(nb_model.classify(proc_text(text5)))

全部评论

推荐最新楼层

10-10 13:10

OPPO_软件开发部_IT开发工程师(准入职员工)

OPPO内推，OPPO内推码

最近好多小伙伴问我在OPPO当管培生咋样，请攻击我最薄弱的地方～ 💼轮岗实践，技能拉满 管培生要在不同岗位轮岗，像我现在在门店，从产品知识、销售技巧到门店运营都得学。和顾客交流，帮他们选到合适的OPPO 设备，成就感拉满！也更懂消费者需求，对以后做策略超有帮助～ 👥大佬带飞，成长特快 公司给配了导师，从业务到职业规划，手把手教。遇到难题，随时能找他们取经，能少走好多弯路！还有各种培训、分享会，行业前沿知识、OPPO 黑科技，听得人热血沸腾，感觉自己在飞速进步～ ✨氛围超棒，青春感十足 OPPO 的小伙伴都很年轻有活力，大家一起头脑风暴、搞活动，像最近推广 Reno14 系列，团队齐心协力，...

OPPO成长空间 913人发布

点赞评论收藏

分享

10-10 07:34

清华大学 Java

阿里 Java 一面面经

一、面试基本情况时间：2025年9月下旬岗位：Java 后端开发工程师形式：远程视频面试时长：约 60 分钟面试内容比例：基础 30%，并发与集合 30%，JVM 20%，项目与系统设计 20%全网最全面的java面试八股文专栏：https://www.nowcoder.com/creation/manager/columnDetail/0n9XOd二、面试流程概览Java 基础语法与机制集合框架与并发编程JVM 原理与性能优化项目设计与系统思维开放性与场景题三、详细面试题目1. Java 基础Java 中重载与重写的区别是什么？== 和 equals() 的区别？为什么 String 是不可...

点赞评论收藏

分享

08-28 20:56

南京邮电大学 Java

入职第一个月最新发明

写完愣了两分钟开始笑

否极泰来来来来：解约赔多少

点赞评论收藏

分享

09-23 08:57

山东大学（威海）游戏测试

谁家好人半夜发感谢开头的邮件

视屏刷着刷着吓我一跳，还好是只是面试评价

点赞评论收藏

分享

10-15 11:05

已编辑

蚌埠坦克学院 Web前端

27前端实习海兴电力一面

📍面试公司：杭州海兴电力🕐面试时间：null💻面试岗位：前端开发工程师（实习）❓面试问题：1.介绍一下你的项目 2.研究生方向 3.对ai了解吗 4.什么时候开始学前端的，为什么选择前端5.流式渲染怎么实现的 6.浏览器怎么存储数据，cookie有了解吗 7.事件循环，promise底层也是也是这样吗，定时器呢 8.js模块化，export、import，除此之外还有什么能实现（原生的js怎么实现的） 9.路由的底层原理是怎么实现的 10.页面性能优化方法 11.CDN了解吗 12.HTTP请求头、请求体分别有什么内容 13.js能实现并发操作吗 14.跨域以及解决方法，跨域主要是为了什...

查看14道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你现在会用到哪些AI技能？ #

2593次浏览 61人参与

# 为什么国企只招应届生 #

206874次浏览 1232人参与

# 平安产险科技校招 #

211次浏览 0人参与

# 实习在多还是在精 #

30082次浏览 216人参与

# 你的房租占工资的比例是多少？ #

63358次浏览 790人参与

# 秋招踩过的“雷”，希望你别再踩 #

72811次浏览 995人参与

# 智慧芽求职进展汇总 #

1196次浏览 5人参与

# 小马智行求职进展汇总 #

12942次浏览 49人参与

# 24届的你们现状如何了？ #

98270次浏览 509人参与

# 我的求职进度条 #

65509次浏览 951人参与

# 实习下班不想学习，正常吗？ #

16999次浏览 165人参与

# HR问：你期望的薪资是多少？如何回答 #

63088次浏览 635人参与

# 你见过哪些工贼行为 #

14654次浏览 84人参与

# 反问环节如何提问 #

114283次浏览 2435人参与

# 如果不考虑收入，你最想做什么工作？ #

31976次浏览 184人参与

# 校招谈薪一定要知道的事 #

11538次浏览 107人参与

# 顺丰求职进展汇总 #

62633次浏览 311人参与

# 大厂VS公务员你怎么选 #

20003次浏览 320人参与

# 找工作中的小确幸 #

23417次浏览 233人参与

# 你觉得什么岗位会被AI替代 #

14401次浏览 160人参与

# 牛客租房专区 #

118355次浏览 1334人参与

# 我的租房踩坑经历 #

175659次浏览 1137人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务