2019-07-24 17:51 已编辑湖南大学后端

关注

“达观杯”文本智能处理挑战赛

“达观杯”文本智能处理挑战赛

一、题目分析

数据

数据包含2个csv文件：

train_set.csv：此数据集用于训练模型，每一行对应一篇文章。

文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：

第一列是文章的索引(id)；

第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；

第三列是在“词”级别上的表示，即词语相隔正文(word_seg)；

第四列是这篇文章的标注(class)。

注：每一个数字对应一个“字”，或“词”，或“标点符号”。“字”的编号与“词”的编号是独立的！

test_set.csv：此数据用于测试。数据格式同train_set.csv，但不包含class。注：test_set与train_test中文章id的编号是独立的。友情提示：请不要尝试用excel打开这些文件！由于一篇文章太长，excel可能无法完整地读入某一行！

train_set.csv中数据如下：

test_set.csv中数据如下：

题目的要求大致上已经明确，就是根据两个参数把id归类到不同的类中。

二、问题分析

问题的解决方案大致如下：

三、代码

 1 print("开始........")
 2 
 3 import pandas as pd
 4 from sklearn.linear_model import LogisticRegression
 5 from sklearn.feature_extraction.text import  CountVectorizer
 6 
 7 df_train = pd.read_csv('./train_set.csv')
 8 df_test = pd.read_csv('./test_set.csv')
 9 df_train.drop(columns=['article','id'],inplace=True)
10 df_test.drop(columns=['article'],inplace=True)
11 
12 vectorizer=CountVectorizer(ngram_range=(1,2),min_df=3,max_df=0.9,max_features=100000)
13 vectorizer.fit(df_train['word_seg'])
14 x_train=vectorizer.transform(df_train['word_seg'])
15 x_test=vectorizer.transform(df_test['word_seg'])
16 y_train=df_train['class']-1
17 
18 lg=LogisticRegression(C=4,dual=True)
19 lg.fit(x_train,y_train)
20 
21 y_test=lg.predict(x_test)
22 
23 df_test['class']=y_test.tolist()
24 df_test['class']=df_test['class']+1
25 df_result=df_test.loc[:,['id','class']]
26 df_result.to_csv('./result.csv',index=False)
27 
28 print("完成.........")

四、回顾总结

提高模型性能的方法大致上有以下几种：

1、数据预处理

2、特征工程

3、机器学习算法

4、模型集成

5、数据增强

全部评论

推荐最新楼层

11-27 00:00

南方科技大学整车软件集成工程师

我才知道秋招不值得焦虑

昨天我经历了美团面试官的“拷打”，整整50分钟后被秒挂。面试中我问到校招生能提供什么价值，面试官直言不讳地说，校招生的价值不大，主要是用来培养的。虽然这话听着有点扎心，但他笑着说的，让我反而松了口气。实习经历再多，如果不思考也没用，毕竟公司并不期待我们一进门就能立刻上手。求职其实是双向选择，挂了也没什么，说明我们不合适。所以我觉得也没必要焦虑了，你们觉得呢？

牛客创作赏金赛

点赞评论收藏

分享

11-24 09:10

北京交通大学行政经理

携程入职一个月体验

首先，工资方面，基本上不会饿死，但也没啥高薪。稳定是有的，但涨薪的速度慢。说到氛围，同事们都挺不错的，年轻人不少。大家都很友好，工作起来也没啥压力。福利方面，携程的社团课程价格很挺不错的，比如350块能上10节街舞课，还有小提琴和瑜伽课，但就是没有小零食发放，节日福利也不算多。吃饭的话，食堂的价格还行，早餐的酱香饼特别好吃，中午和晚上的饭大概15-20块，量也足。不过，附近的餐馆价格就比较贵，随便吃一顿都得30块起。居家办公是有的，但具体安排还是得看直系领导的意思。

携程公司氛围 85人发布

点赞评论收藏

分享

11-12 18:47

中南大学 Java

base 深圳/武汉，软开类岗位本科生今天下午保温想问问武汉的薪资结构是怎么样的，是真的很低吗？

Pito：佬，小心开个13级就老实了

点赞评论收藏

分享

10-18 20:30

西安电子科技大学 Java

爱华，信华，等华！

喜欢走神的孤勇者练习时长两年半：爱华，信华，等华，黑华

点赞评论收藏

分享

11-26 00:48

辽宁大学实施工程师

我的三面还是挂了

我和安克的HR聊得特别愉快，没想到最后还是没能通过。我是真的很想加入这个团队，感觉自己和他们的理念很契合。收到通知时，心里一沉，虽然他们说这并不是对我的否定，但我还是忍不住感到遗憾。希望以后能够找一个适合的舞台吧！

牛客创作赏金赛

点赞评论收藏

分享

评论

点赞

1

全站热榜

正在热议

# 25届秋招总结 #

377310次浏览 3743人参与

# 如果再来一次，你还会选择这个工作吗？ #

101342次浏览 1022人参与

# 北方华创开奖 #

64588次浏览 503人参与

# 地方国企笔面经互助 #

6027次浏览 14人参与

# 简历被挂麻了，求建议 #

2525238次浏览 33457人参与

# 发工资后，你做的第一件事是什么 #

4691次浏览 19人参与

# 阿里云管培生offer #

46244次浏览 1377人参与

# ai智能作图 #

11251次浏览 181人参与

# 我的实习求职记录 #

6105850次浏览 83837人参与

# 如果你有一天可以担任公司的CEO，你会做哪三件事？ #

8829次浏览 180人参与

# 上班到公司第一件事做什么？ #

14585次浏览 164人参与

# 阿里求职进展汇总 #

71828次浏览 780人参与

# 如何写一份好简历 #

615926次浏览 8700人参与

# 听到哪句话就代表面试稳了or挂了？ #

96752次浏览 810人参与

# 还记得你第一次面试吗？ #

29647次浏览 416人参与

# 华为工作体验 #

109395次浏览 852人参与

# 面试体验感最好的是哪家？ #

91575次浏览 921人参与

# 网易求职进展汇总 #

38915次浏览 334人参与

# 如果有时光机，你最想去到哪个年纪？ #

27074次浏览 559人参与

# 腾讯求职进展汇总 #

205715次浏览 1687人参与

# 硬件兄弟们甩出你的华为奖状 #

75826次浏览 615人参与

# 上班苦还是上学苦呢？ #

106767次浏览 865人参与

牛客网
牛客企业服务