2019-07-28 11:35 已编辑北京理工大学算法工程师

关注

中文自然语言预处理总结

目录

中文文本预处理总结

1、文本数据准备

2、全角与半角的转化

3、文本中大写数字转化为小写数字

4、文本中大写字母转化为小写字母

5、文本中的表情符号去除（只保留中英文和数字）

6、去除文本中所有的字符（只保留中文）

7、中文文本分词

8、中文文本停用词过滤

9、将清洗后的数据写入CSV文件

中文文本预处理总结

1、文本数据准备

（1）使用已有的语料库

（2）网络爬虫获取自己的语料库（可以使用beautifulsoup等爬虫工具）


#读取文件列表数据,返回文本数据的内容列表和标签列表
def filelist_contents_labels(filelist):
    contents=[]
    labels = []
    for file in filelist:
        with open(file, "r", encoding="utf-8") as f:
            for row in f.read().splitlines():
                sentence=row.split('\t')
                contents.append(sentence[-1])
                if sentence[0]=='other' :
                    labels.append(0)
                else:
                    labels.append(1)
    return contents,labels

2、全角与半角的转化

在自然语言处理过程中，全角、半角的的不一致会导致信息抽取不一致，因此需要统一。中文文字永远是全角，只有英文字母、数字键、符号键才有全角半角的概念,一个字母或数字占一个汉字的位置叫全角，占半个汉字的位置叫半角。标点符号在中英文状态下、全半角的状态下是不同的。

有规律（不含空格）：全角字符unicode编码从65281~65374 （十六进制 0xFF01 ~ 0xFF5E）；半角字符unicode编码从33~126 （十六进制 0x21~ 0x7E）

特例：空格比较特殊，全角为 12288（0x3000），半角为 32（0x20）

#全角转半角
def full_to_half(sentence):      #输入为一个句子
    change_sentence=""
    for word in sentence:
        inside_code=ord(word)
        if inside_code==12288:    #全角空格直接转换
            inside_code=32
        elif inside_code>=65281 and inside_code<=65374:  #全角字符（除空格）根据关系转化
            inside_code-=65248
        change_sentence+=chr(inside_code)
    return change_sentence

ord() 函数是 chr() 函数（对于8位的ASCII字符串）或 unichr() 函数（对于Unicode对象）的配对函数，它以一个字符（长度为1的字符串）作为参数，返回对应的 ASCII 数值，或者 Unicode 数值，如果所给的 Unicode 字符超出了你的 Python 定义范围，则会引发一个 TypeError 的异常。

#半角转全角
def hulf_to_full(sentence):      #输入为一个句子
    change_sentence=""
    for word in sentence:
        inside_code=ord(word)
        if inside_code==32:    #半角空格直接转换
            inside_code=12288
        elif inside_code>=32 and inside_code<=126:  #半角字符（除空格）根据关系转化
            inside_code+=65248
        change_sentence+=chr(inside_code)
    return change_sentence

3、文本中大写数字转化为小写数字

#大写数字转换为小写数字
def big2small_num(sentence):
    numlist = {"一":"1","二":"2","三":"3","四":"4","五":"5","六":"6","七":"7","八":"8","九":"9","零":"0"}
    for item in numlist:
        sentence = sentence.replace(item, numlist[item])
    return sentence

4、文本中大写字母转化为小写字母

#大写字母转为小写字母
def upper2lower(sentence):
    new_sentence=sentence.lower()
    return new_sentence

5、文本中的表情符号去除（只保留中英文和数字）

使用正则表达式

#去除文本中的表情字符（只保留中英文和数字）
def clear_character(sentence):
    pattern1= '\[.*?\]'     
    pattern2 = re.compile('[^\u4e00-\u9fa5^a-z^A-Z^0-9]')   
    line1=re.sub(pattern1,'',sentence)
    line2=re.sub(pattern2,'',line1)   
    new_sentence=''.join(line2.split()) #去除空白
    return new_sentence

6、去除文本中所有的字符（只保留中文）

#去除字母数字表情和其它字符
def clear_character(sentence):
    pattern1='[a-zA-Z0-9]'
    pattern2 = '\[.*?\]'
    pattern3 = re.compile(u'[^\s1234567890:：' + '\u4e00-\u9fa5]+')
    pattern4='[’!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~]+'
    line1=re.sub(pattern1,'',sentence)   #去除英文字母和数字
    line2=re.sub(pattern2,'',line1)   #去除表情
    line3=re.sub(pattern3,'',line2)   #去除其它字符
    line4=re.sub(pattern4, '', line3) #去掉残留的冒号及其它符号
    new_sentence=''.join(line4.split()) #去除空白
    return new_sentence

7、中文文本分词

本文使用的是jieba分词。

8、中文文本停用词过滤

#去除停用词，返回去除停用词后的文本列表
def clean_stopwords(contents):
    contents_list=[]
    stopwords = {}.fromkeys([line.rstrip() for line in open('data/stopwords.txt', encoding="utf-8")]) #读取停用词表
    stopwords_list = set(stopwords)
    for row in contents:      #循环去除停用词
        words_list = jieba.lcut(row)
        words = [w for w in words_list if w not in stopwords_list]
        sentence=''.join(words)   #去除停用词后组成新的句子
        contents_list.append(sentence)
    return contents_list

9、将清洗后的数据写入CSV文件

# 将清洗后的文本和标签写入.csv文件中
def after_clean2csv(contents, labels): #输入为文本列表和标签列表
    columns = ['contents', 'labels']
    save_file = pd.DataFrame(columns=columns, data=list(zip(contents, labels)))
    save_file.to_csv('data/clean_data.csv', index=False, encoding="utf-8")

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

07-02 15:39

很担心现在hr的精神状态

点赞评论收藏

分享

07-01 20:12

门头沟学院客户端其它

秋招，你就这么投

双非的兄弟们看这里所谓金九银十，都别当真噢，除了少数运气好的哥们，能赶上这波浪潮，剩下的兄弟们往下看。前期先投中小厂，他们流程快，可以拿他们的面试练练手，在中小厂发笔试的时候，就是投大厂的时候，这样面试完中小厂，大厂的面试也会接踵而来，这样你面试大厂的时候就不会那么胆怯了，接下来我以我秋招投递深信服为例，具体的时间线如下：8月份提前批，投不投无所谓，提前批招的都是ssp那些天才少年。9月份正式开始秋招，先投中小厂，投3-4周，9月末基本上陆续就会收到笔试链接了。9月末或10月初，笔试过的中小厂，这个时间会发面试链接了，然后就是一边面试，一边开始投大厂。放心哈，咱这学历能大厂筛选到咱们这了，基本...

牛客33615966...：耐面王

秋招什么时候开投比较合适...

点赞评论收藏

分享

05-21 00:25

电子科技大学后端

26java求拷打

简历求拷打😭😭现在投暑期感觉太晚了，也怪楼主太拖沓😡😡

lllllkin：感觉可以精简到一页简历，有些排版感觉不是必须的。时间线越早的，你自己越熟悉的放前面。描述可以更精简些，一些问题解决感觉可以不用写具体技术栈，卖个关子，等面试官问。

点赞评论收藏

分享

05-21 14:50

湖南机电职业技术学院前端工程师

毕业找工作

25届应届生，都不知道用这份简历找什么样的工作

nus2201602...：兄弟，你这个简历撕了丢了吧，就是一坨，去找几个项目，理解项目流程，看几遍就是你的了，看看八股就去干了，多看看牛客里别人发出来的简历，对着写，你这写的啥啊，纯一坨

点赞评论收藏

分享

不愿透露姓名的神秘牛友

07-02 17:28

面试的时候没绷住哭出来了怎么办

25届每天都在焦虑找工作的事情0offer情绪一直很低落硬撑着面了一个岗位岗位有应酬的成分面试的时候hr给我出各种场景题问的问题比较犀利 有点压力面的感觉感觉有点回答不上来本来就压抑的情绪瞬间爆发了呢一瞬间特别想哭觉得自己特别没用没绷住掉眼泪了事后想想觉得自己挺有病的 真的破大防了

喜欢唱跳rap小刺猬...：我觉得没关系吧，之前有一次面试leader给我压力面，我顶住了压力，结果入职的时候发现组里氛围很差，果断跑路。其实从面试就能大概看出组的情况，面试体验好的组倒是不一定好，但是面试体验不好的组。。。就很难说

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你觉得实习能学到东西吗 #

30916次浏览 632人参与

# 机械人集合！你是什么工程师？ #

15322次浏览 88人参与

# 现代汽车前瞻技术研发急速编程挑战赛 #

25959次浏览 211人参与

# 秋招什么时候开投比较合适？ #

19041次浏览 274人参与

# 发工资后，你做的第一件事是什么 #

67559次浏览 229人参与

# 如何准备秋招 #

18082次浏览 348人参与

# 百度工作体验 #

219225次浏览 1957人参与

# 机械人与华为的爱恨情仇 #

116200次浏览 942人参与

# 工作中哪个瞬间让你想离职 #

25444次浏览 177人参与

# 硬件应届生薪资是否普遍偏低？ #

73587次浏览 514人参与

# 不考虑转正，实习多久合适 #

31578次浏览 145人参与

# 影石Insta360求职进展汇总 #

123128次浏览 1069人参与

# 通信和硬件还有转码的必要吗 #

57249次浏览 526人参与

# 24届的你们都什么时候入职？ #

59958次浏览 424人参与

# 面试被问期望薪资时该如何回答 #

255982次浏览 1479人参与

# 实习，不懂就问 #

41865次浏览 643人参与

# 你们公司几号发工资 #

20526次浏览 139人参与

# 软开人，秋招你打算投哪些公司呢 #

102425次浏览 958人参与

# 每个月的工资都是怎么分配的？ #

25073次浏览 408人参与

# 如果你有一天可以担任公司的CEO，你会做哪三件事？ #

28978次浏览 460人参与

# 你觉得现在还能进互联网吗？ #

7481次浏览 130人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务