小傅在分析

2019-09-16 14:59 门头沟学院数据分析师

关注

mingancijishu

'''
    -*- conding: utf-8 -*-
    统计生产数据中的话术中各敏感词出现的频率。
'''


import pandas as pd
from functools import cmp_to_key
from datetime import datetime
from tqdm import tqdm


starttime = datetime.now()
infile1 = "./input/input1/" + "生产数据.xlsx"
infile2 = "./input/input1/" + "敏感词.xlsx"
outfile = "./output/output1/" + "统计结果.xlsx"

df1 = pd.read_excel(infile1)
df2 = pd.read_excel(infile2).set_index('user_say')
print("\n数据读取完成")

def compare(a, b):
    if len(a) > len(b):
        return 1
    elif len(a) < len(b):
        return -1
    else:
        return 0

grouped = df1.groupby('匹配扩展问')
df_out = pd.DataFrame()
for user_say2, data in tqdm(grouped):
    new_row = [user_say2]
    sensitive_words = df2.loc[user_say2].dropna()
    sensitive_words = sensitive_words.tolist()
    sensitive_words.sort(key=cmp_to_key(compare), reverse=True)
    for word in sensitive_words:
        count = 0
        for i in range(len(data)):
            user_say1 = data.iloc[i]['会话内容']
            if word in user_say1:
                count += 1
                user_say1 = user_say1.replace(word, '')
                data.iloc[i]['会话内容'] = user_say1
        new_row.append(word)
        new_row.append(str(count))
    new_row = pd.DataFrame([new_row])
    df_out = df_out.append(new_row)
print("\n敏感词统计完成")

df_out.reset_index(drop=True, inplace=True)
df_out.to_excel(outfile)
print("\n用时：", datetime.now() - starttime)

全部评论

推荐最新楼层

10-30 16:29

门头沟学院智能驾驶系统工程师

两个月的秋招接近结束，心力交瘁，请大家帮选一下offer，有关公司具体工作氛围or避雷欢迎评论讨论👋个人背景：本2硕9，老家杭州，一段实习，有论文有竞赛获奖👏offer1：杭州零跑算法岗，N*14，公积金12%，听说强度124加班到8:30，大小周💯offer2：杭州华电电科院技术岗，央企稳定，主要做软件开发，税前年包不足20，似乎出差强度较高🌱offer3：中控技术N*14.5，做化工自动化相关的AI算法开发🌱offer4：上海华为车bu，有过实习部门氛围较好，大概率能开sp15级，公积金5%，但是后续可能部门业务有变动

点赞评论收藏

分享

10-29 09:10

门头沟学院客户端其它

字节客户端一面面经

1、手撕二十分钟，两个大数字符串相乘，求乘积，字符串打印出来 人都蒙了，题目只有几个字 2、介绍Java反射 3、反射的优点和缺点 4、有没有什么方式能防止通过反射查看到某个字段（JVM层面） 5、刚刚提到反射可以动态加载MySQL驱动或Oracle驱动，那有没有其他的方式也能动态加载不同数据库驱动 6、HTTP和HTTPS区别 7、加密算法有哪些，实现过程 8、客户端怎么对密文进行解密 9、如果要让你实现一个抓包工具，让用户能实现通过工具解密看明文

查看9道真题和解析

点赞评论收藏

分享

10-30 14:47

腾讯_项目经理(实习员工)

麻木的一天

麻木的一天,,,,一句多余的也不愿意说…………………………

点赞评论收藏

分享

10-21 09:12

上海第二工业大学嵌入式软件开发

双非秋招闹麻了

未知的命运：大佬这都找不到我还找啥啊

点赞评论收藏

分享

10-29 21:46

门头沟学院安卓

什么，你在教我做事？

一、引言 最近又听到我们实验室的师弟师妹们开始吐槽我的研究生导师XX了（请注意是我的研究生导师，非百度mentor），说他怎么要求过分，说他怎么pua大家，一听到这我就在公司不断踱步，这渣导怎么又开始作妖了，所以我实在是忍不住再来吐槽一波我的导师（后来一想劣根性，怎么会轻易改变呢）。二、标题由来 文章标题《什么，你在教我做事？》就源于我导师的经典名言，来源与之前我们实验室一次司空见惯的例会，会上由于和师妹一些学术上的分歧，导师不知道是心情不好，还是在家里被老婆大人给穿小鞋了，然后情绪就异常冲动，我的师妹也是比较直接的女生，，心直口快，当时也没多想，就说了一句：“老师，我的觉作为导师，不应该这么...

读研or工作，哪个性价比...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

京东秋招开奖

热聊中

创作者周榜

更多

正在热议

更多

# 秋招开始捡漏了吗 #

19386次浏览 121人参与

# 找工作八股要背到什么程度？ #

1728次浏览 40人参与

# “vivo”个offer #

47760次浏览 316人参与

# 上班后，才发现大学__白学了 #

3458次浏览 24人参与

# 你实习是赚钱了还是亏钱了？ #

2179次浏览 25人参与

# 用一句话形容你的团队氛围 #

1580次浏览 36人参与

# 辞职后的日常 #

16033次浏览 84人参与

# 入职以后才知道的校招谎言 #

100670次浏览 645人参与

# 打工人的精神状态 #

101805次浏览 1314人参与

# 五一之后，实习真的很难找吗？ #

89563次浏览 561人参与

# 一人一个landing小技巧 #

128000次浏览 1464人参与

# 满帮集团求职进展汇总 #

8459次浏览 71人参与

# 学历对求职的影响 #

551039次浏览 3912人参与

# 规定下班时间vs实际下班时间 #

56267次浏览 332人参与

# 你找工作是从容有余 or 匆忙滚爬？ #

1310次浏览 25人参与

# 今年秋招还有金九银十吗 #

19611次浏览 171人参与

# 分享一个让你热爱工作的瞬间 #

43782次浏览 395人参与

# 上班到公司第一件事做什么？ #

99181次浏览 681人参与

# 我和mentor的爱恨情仇 #

79713次浏览 434人参与

# 数字马力求职进展汇总 #

213043次浏览 1681人参与

# 你见过哪些工贼行为 #

32732次浏览 151人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务