2019-07-28 11:37 已编辑北京理工大学算法工程师

关注

英文自然语言处理——电影评论情感判别

1、导入所需的库

2、用Pandas读入训练数据

3、构建停用词列表数据

4、对数据做预处理

5、将清洗的数据添加到DataFrame里

1、导入所需的库

import os
import re
import numpy as np
import pandas as pd
from bs4 import BeautifulSoup
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix
import nltk
from nltk.corpus import stopwords

2、用Pandas读入训练数据

#用pandas读入训练数据
datafile=os.path.join('E:\\english_data','labeledTrainData.tsv')
df=pd.read_csv(datafile,sep='\t',escapechar='\\')
print('Number of reviews:{}'.format(len(df)))
df.head()

3、构建停用词列表数据

#words_nostop=[w for w in words if w not in stopwords.words('english')]
stopwords={}.fromkeys([line.rstrip() for line in open('E:\\english_data\\stopwords.txt')])
eng_stopwords=set(stopwords)

4、对数据做预处理

（1）去掉html标签

（2）移除标点符号

（3）将句子切分成词

（4）去掉停用词

（5）重组为新的句子

def clean_text(text):
    text=BeautifulSoup(text,'html.parser').get_text()
    text=re.sub('[^a-zA-Z]',' ',text)
    words=text.lower().split()
    words=[w for w in words if w not in eng_stopwords]
    return ' '.join(words)

5、将清洗的数据添加到DataFrame里

df['clean_review']=df.review.apply(clean_text)
df.head()

6、计算训练集中每条评论数据的向量

（1）使用sklearn的CountVectorizer抽取bag of words特征

vectorizer=CountVectorizer(max_features=5000)
train_data_features=vectorizer.fit_transform(df.clean_review).toarray()
train_data_features.shape

（2）使用Gensim的Word2Vec训练词嵌入模型

from gensim.models.word2vec import Word2Vec

# 设定词向量训练的参数
num_features = 300    # Word vector dimensionality
min_word_count = 40   # Minimum word count
num_workers = 4       # Number of threads to run in parallel
context = 10          # Context window size
downsampling = 1e-3   # Downsample setting for frequent words

model = Word2Vec(sentences, workers=num_workers, \
            size=num_features, min_count = min_word_count, \
            window = context, sample = downsampling)

# If you don't plan to train the model any further, calling 
# init_sims will make the model much more memory-efficient.
model.init_sims(replace=True)

# It can be helpful to create a meaningful model name and 
# save the model for later use. You can load it later using Word2Vec.load()
model.save(os.path.join('..', 'models', model_name))

7、构建随机森林分类器并训练

forest=RandomForestClassifier(n_estimators=100)
forest=forest.fit(train_data_features,df.sentiment)

#删除不用的占内容变量
del df 
del train_data_features

8、读取测试数据并进行预测

datafile=os.path.join('E:\\english_data','testData.tsv')
df=pd.read_csv(datafile,sep='\t',escapechar='\\')
print('Number of reviews:{}'.format(len(df)))
df['clean_review']=df.review.apply(clean_text)
df.head()

test_data_features=vectorizer.transform(df.clean_review).toarray()
test_data_features.shape

result=forest.predict(test_data_features)
output=pd.DataFrame({'id':df.id,'sentiment':result})
output.head()

9、将预测结果写入csv文件

output.to_csv(os.path.join('E:\\english_data','Bag_of_Words_model.csv'),index=False)


del df
del test_data_features

全部评论

推荐最新楼层

2025-12-30 16:08

三七互娱_游戏开发_系统开发(准入职员工)

图拉斯内推，图拉斯内推码

ai面总结：AI调教的很好，问的问题很有意思，整场面试不会有很大的压迫感，追问大多是根据你的回答提问。总时长：35分钟Q1:自我介绍，重点介绍一下个人背景和大学期间的主要经历。Q2：你对于在一家公司长期发展有什么看法？你认为哪几点因素会让你在一家公司长期工作？（有追问）Q3：你取得过的最大成就是什么？过程中最大的难点是什么？你是如何突破的？最终的结果怎么样？（有追问2个）Q4：请描述一个过往遇到的最有压力困难或最具挑战的一个场景，你是如何解决的？对你有什么影响？（有追问）Q5：依你的看法，请描述一个你近期完成的项目任务，如果重来一次，你会做哪些不同的事情来提升结果？（有追问2个）Q6：电商运营...

点赞评论收藏

2025-12-30 14:31

滴滴_运维开发工程师(准入职员工)

滴滴内推，滴滴内推码

🔥滴滴一二三面 技术面 面经后端最近结束了滴滴的面试，三轮技术面问得超细致❗️整理了完整面经和思路分享给大家👇——————🧩一面 60min•RocketMQ vs Kafka 区别（设计理念/吞吐/延迟）•Redis性能核心：内存+I/O多路复用原理•Redis数据结构选型场景实战•MySQL与Redis一致性方案（旁路缓存策略）•协程原理剖析：Goroutine底层调度模型•Lua脚本实现原子库存扣减•MySQL索引优化与B+树优势•防超卖方案：分布式锁+库存校验•算法：搜索旋转排序数组（二分变形）——————🧩二面 60min•List遍历删除的坑（迭代器失效问题）•MySQL索...

点赞评论收藏

2025-12-17 22:19

已编辑

百度_MEG_后端开发实习(实习员工)

纪念一下27第一次拿到大厂实习

自己几个月的努力没有白费，真的很开心，也重新拾起能让自己自信的勇气感谢之前各位素不相识的牛友们的鼓励与支持这一刻，坚持仙蛊，练成！

海梨花：加油吧兄弟，已经准备跑路了

发面经攒人品

点赞评论收藏

2025-11-13 14:36

门头沟学院 Java

27届学院本找实习，简历求拷打

各位佬，本人27届学院本科班，坐标天津，想找一段寒假实习，希望各位佬能指出本人的不足之处，目前正在恶补八股（目前已完成基础篇，任重道远），由于学历太低，本人也有考研的打算，希望各位佬，能提一提意见，十分听劝。再次感谢各位佬😭😭😭

你觉得第一学历对求职有影...

点赞评论收藏

2025-12-26 13:45

海康威视_自动化开发工程师(准入职员工)

莉莉丝游戏，莉莉丝游戏内推码

笔试面试时间：预计两周的时间 11.16▶️11.21▶️11.26（一共只有两面 最后是拿到offer） 一面-自我介绍和简历放在之前作品里面啦 1️⃣你了解我们公司有哪些产品？ 目前莉莉丝基本上是卡牌游戏的大厂！例如AFK2是近些年发布规模比较庞大的项目，AFK在卡牌领域算是常青树游戏 ，还有比较偏福瑞画风的众神派对，发家的小冰冰传奇【以及即将公测的远光84】 2️⃣你认为的游戏发行流程是什么 一个还没有进行公布的项目的话 通常会进行以下阶段 首爆-cbt1测试-23测试-公测（俗称的ob）-ob+1以这样的节奏型发行 3️⃣对你印象最深刻的营销案例是什么 这个可能会比较开放老师们可以提比...

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 对2025年忏悔 #

4702次浏览 108人参与

# 你觉得专业和学校哪个对薪资影响最大 #

英文自然语言处理&mdash;&mdash;电影评论情感判别

1、导入所需的库

2、用Pandas读入训练数据

3、构建停用词列表数据

4、对数据做预处理

5、将清洗的数据添加到DataFrame里

6、计算训练集中每条评论数据的向量

7、构建随机森林分类器并训练

8、读取测试数据并进行预测

9、将预测结果写入csv文件

全站热榜

创作者周榜

英文自然语言处理——电影评论情感判别