小傅在分析

2019-09-16 14:59 门头沟学院数据分析师

关注

敏感词查找

'''
-- conding: utf-8 --
从input2中的入库数据中查找敏感词，输出包含敏感词的话术和对应的敏感词。
'''

import pandas as pd
from functools import cmp_to_key
from datetime import datetime
from tqdm import tqdm
import os

starttime = datetime.now()
infile1 = "./input/input2/"
infile2 = "./input/input2/" + "敏感词.xlsx"
outfile = "./output/output2/" + "查找结果.xlsx"

df2 = pd.read_excel(infile2)
print("\n敏感词读取完成")

def compare(a, b):
if len(a) > len(b):
return 1
elif len(a) < len(b):
return -1
else:
return 0
sensitive_words = df2['敏感词'].tolist()
sensitive_words.sort(key=cmp_to_key(compare), reverse=True)
df_out = pd.DataFrame()

infiles = [infile1 + i for i in os.listdir(infile1) if i.endswith('入库数据.xlsx')]
for infile in infiles:
df1 = pd.read_excel(infile)
basename = os.path.basename(infile)
print("处理" + basename)
scene = basename.split('_')[0]
for i in tqdm(range(len(df1))):
word_contained = []
user_say = str(df1.iloc[i]['user_say'])
for word in sensitive_words:
if word in user_say:
word_contained.append(word)
user_say = user_say.replace(word, '')
if len(word_contained) > 0:
word_contained_str = ', '.join(word_contained)
new_row = [df1.iloc[i]['user_say'], df1.iloc[i]['intent'], word_contained_str, scene]
new_row = pd.DataFrame([new_row])
df_out = df_out.append(new_row)
print("\n敏感词查找完成")

df_out.reset_index(drop=True, inplace=True)
df_out.columns = ['user_say', 'intent', 'sensitive_words', 'scene']
df_out.to_excel(outfile)
print("\n用时：", datetime.now() - starttime)

全部评论

推荐最新楼层

01-26 18:43

Purdue University（West Lafayette） Unity3D客户端

这种招聘靠谱吗

楼主应届生，boss上面有家中厂给我打招呼，接着很快安排面试，5个工作日就面完3次。评聘的是客户端，流程是正常的业务2面+hr面，但是时间越来越短（3次时间分别在大约50-40-15），到最后hr面只有短短十几分钟，说给楼主报销机票酒店去线下看看。业务面也比其他公司的简单很多。在网上看到说这么短多半是要挂了或者kpi了。这种靠谱吗。

应届生，你找到工作了吗

点赞评论收藏

分享

01-22 13:42

蓝禾技术_电商事业部_电商运营管培生(准入职员工)

蓝禾科技内推，蓝禾科技内推码

面经：蓝禾的流程推得很快，基本上投完两天就接到了hr的初试电话，直接进行了初试。初试全程大概三十分钟，hr小哥态度很和善。主要问了实践经历获奖的情况最有成就感的事情对电商运营的理解选择公司的标准等，都是比较常规的问题。禾你一起，做不可能的事 | 蓝禾26届校招启动啦公司介绍：蓝禾2008年成立于深圳，是一家集产品、设计、研发、品牌、营销、大数据运营于一体的创新型科技公司，旗下拥有图拉斯TORRAS、锐舞RANVOO、卡斯酷CASEKOO等多个品牌招聘岗位：运营(国内)、运营(国外)、营销、设计、研发技术、职能工作地点：深圳内推链接：https://lanhevip.jobs.feishu.cn...

点赞评论收藏

分享

2025-12-26 00:04

马鞍山学院 Java

目前0实习，感觉现在必须要整个实习了，希望各位大佬能给我一些建议，谢谢大家我是应该写新项目或者什么方向的 ，还是背八股刷力扣呢

java_xiaoj...：有个卖的**经常在复制黏贴他的评论，你们别看他的，我不说是谁。

你开始找寒假实习了吗？

点赞评论收藏

分享

2025-12-20 01:04

中山大学 Java

老实人干老实事享老实人生

+1来问offer情况，老老实实的说了没有offer，感觉被质疑能力了，😭，实在是不会说假话啊😭😭😭

hvenjustic：直接报室友的，我们宿舍都互相报

点赞评论收藏

分享

01-22 14:31

小红书_后端开发_REDstar算法工程师(准入职员工)

禾赛科技内推，禾赛科技内推码

禾赛科技 嵌入式开发（操作系统）面经⚜技术是真的过硬啊，秋招嵌入式被拷打的最狠之一。原定45分钟，拷打一个半小时，涉及知识面特别广，实际问的比这还要多，记忆有限。不过也无后续，但也没挂，估计在L3缓存里面吧⭕一面（9.18）1. 自我介绍2. 项目介绍3. 有没有测量IMU精度4. 串口有几根线，中断配置？5. IIC有几根线？讲一讲怎么通信？详细说一下读取寄存器的流程6. 说一说任务有哪几种状态？就绪和阻塞的任务放在哪里？放在同一个链表上面吗？7. 任务怎么进入阻塞态？（主动挂起，被强占，争取不到资源等）8. 说一说死锁？9. 怎么解决死锁问题？（获取不到锁的时候，释放本身的资源）10. 有...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 赚钱的意义在这一刻具象化 #

3104次浏览 78人参与

# AI时代的工作 VS 传统时代的工作，有哪些不同？ #

6523次浏览 146人参与

# 今年春招是金一银二嘛？ #

4531次浏览 52人参与

# 1月小结：你过的开心吗？ #

1062次浏览 32人参与

# 没关系，至少我的__很曼妙 #

2829次浏览 55人参与

# 你的第一家实习公司是什么档次？ #

2964次浏览 51人参与

# 为什么有人零实习也能进大厂？ #

3316次浏览 71人参与

# 抛开难度不谈，你最想去哪家公司？ #

2451次浏览 65人参与

# 你的landing期是如何度过的？ #

6240次浏览 107人参与

# 当你问AI“你会取代我的工作吗”，它说_？ #

2477次浏览 80人参与

# 除了Java，最推荐学什么技术？ #

4411次浏览 117人参与

# AI求职实录 #

2212次浏览 61人参与

# 机械人你知道哪些单休企业 #

82586次浏览 406人参与

# 你觉得什么岗位会被AI替代 #

36298次浏览 249人参与

# 哪些瞬间让你真切感受到了工作的乐趣 #

23146次浏览 98人参与

# 工作后会跟朋友渐行渐远吗 #

57727次浏览 411人参与

# 我和mentor的爱恨情仇 #

103765次浏览 928人参与

# 一人一道大厂面试题 #

113976次浏览 1263人参与

# 如果工作一直消耗情绪还要继续做吗 #

18530次浏览 88人参与

# 我是XXX，请攻击我最薄弱的地方 #

55745次浏览 389人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务