2022-01-06 14:43

关注

Python数据分析与处理——处理中国地区信息

预处理地区信息

2.1数据的爬取

代码：

import pandas as pd data=pd.read_csv("example_data.csv",header=1)

print(data) data1=pd.read_csv("北京地区信息.csv",header=1,encoding='gbk') data2=pd.read_csv("天津地区信息.csv",encoding='gbk')

print(data1)

print(data2)

代码运行结果：

首先使用pandas的read_csv()方法进行数据的读取，然后就能够看到相应的表格信息。

2.2检查重复数据

# 2.2检查重复数据 dupnum=data.duplicated() print(dupnum)

\# 对重复值进行处理 caldup=data.drop_duplicates() print(caldup)

代码运行结果：

主要是是使用这个duplicated()方法进行数据的查重，返回一个布尔序列，仅对唯一元素而言为True。如果有重复的数据就会在该数值的部分返货Flase。

然后我们就可以使用drop_duplicates()进行重复值删除。

2.3检查缺失值

代码：

from pandas import Series from numpy import NAN

\# import pandas as pd series_obj=Series([1,None]) pd.notnull(series_obj)

\# 上面做的是测试 pd.notnull(data) pd.notnull(data1) pd.notnull(data2)

代码运行结果：

使用pd.notnull(data1)进行非空数值的返回，返回值是布尔型的矩阵，再取df[布尔型矩阵]返回的是id为非空的行。

2.4 检查异常值

import numpy as np

\# 2.4 检查异常值 def three_sig(ser1): mean_value=ser1.mean()

\#   标准差 std_value=ser1.std()

\#   位于3σ范围外的都是异常值 \# 数值大于u+3σ小雨u-3σ rule=(mean_value-3*std_value>ser1)|(ser1.mean()+3*ser1.std()<ser1)

  index=np.arange(ser1.shape[0])[rule]

  outrange=ser1.iloc[index] return outrange

three_sig(data2["女性"])

代码运行结果：

3σ原则又称为拉依达准则，该准则具体来说，就是先假设一组检测数据只含有随机误差，对原始数据进行计算处理得到标准差，然后按一定的概率确定一个区间，认为误差超过这个区间的就属于异常值。

通俗理解就是正态分布。

全部评论

推荐最新楼层

04-21 19:46

已编辑

门头沟学院 Java

求问，测开后端不等式

大厂测开年包42，10.5-8 双休，不太卷，签了三方。求问什么样的拿到什么样的后端offer值得毁约这个测开offer，年包35w以上就行吗？求大佬分享经验引流腾讯字节美团华为快手百度滴滴京东选项没有的可以评论区分享，感谢大佬

我的求职进度条

点赞评论收藏

分享

04-21 21:03

已编辑

第一拖拉机制造厂拖拉机学院 Java

大二鼠鼠 Java -> Go，我的一月速成之路

up 的速成基于 JavaWeb 和 c 语法基础整个学习中基本用的全是 AI，也算是另类的 AI 辅助学习路线了语法和底层原理学习：GPT(主) + Copilot + Gemini开发实现：Cursor + Codex前端 skill：Taste Skill（提示 AI 审美）、ui-ux-pro-max（增强设计能力）后端 skill：ExecPlan Skills（让 AI 按计划干活，不乱改）点个赞还有创作者激励： 复制打开抖音，我的 Go 语言学习之路 https://v.douyin.com/1fFrBlJp-TA/ 01/06 cAt:/ ********** Go 基础首先让...

聊聊我眼中的AI

点赞评论收藏

分享

04-14 19:08

南昌航空大学科技学院 C++

我说白了民办本科就这样了

简历给你了学校标的清清楚楚😅，面完说我是三本只能给150，那你boss标200-250干嘛，感觉还是太礼貌了，应该直接爆了😤学历就是一个人的外貌实习就是一个人的衣服本科学历差就是其貌不扬的样子实习经历差就是破破烂烂的衣服＃民办已经死了 ＃都给我去考研吧＃计算机就是学历＞技术＃c++92✌🏻才能学

饼子吃到撑：现在就是学历大于一切了，尤其是应届生，你再厉害人家筛选按钮选择985双非直接完蛋，学历就是硬伤，公司肯定都想用优秀的人，但是不知道你到底优不优秀只能通过最原始的方法来筛选~学历，

点赞评论收藏

分享

04-16 00:38

四川大学 Java

28届java后端

28届找暑假的日常实习，投什么厂合适呢，现在八股基本过了一遍，hot100差不多刷完了 求各位大佬指点

牛客在线求职答疑中心

点赞评论收藏

分享

04-21 09:20

北京邮电大学嵌入式工程师

开启新副本:暑期实习全攻略

相信很多人都知道，第一份实习/工作对于日后的发展尤其重要，在职场上接触的第一个 leader，也会对未来的工作思维、工作态度产生重要的影响。因此第一份实习，可不能随便找个兼职糊弄一下就过去了。那么在选择企业实习的时候，我们应该做些什么呢？事实上，博主自己也是最近才找到实习，没有办法以长远的眼光来判断这个实习究竟对自己未来的作用有多大，所以这里仅仅是谈一下我自己所做的一些准备，以及我自己在找实习过程中的感悟和想法。明确你所处的阶段明确你所处的阶段是指，先看看你现在到底是要找暑期实习还是秋招。相信很多要找实习/工作的同学都听说过“金三银四”、“金九银十”这样的词，也有很多人疑惑春招、秋招、暑期实习...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你的实习产出是真实的还是包装的？ #

74206次浏览 594人参与

# 你是怎么和mt相处的？ #

102003次浏览 496人参与

# 华泰星战营，提前锁定校招offer #

13804次浏览 389人参与

# 打工人的工作餐日常 #

96083次浏览 550人参与

# 拼多多集团-PDD笔试 #

86845次浏览 594人参与

# 网易游戏雷火笔试 #

11576次浏览 108人参与

# 26届秋招投递记录 #

123527次浏览 683人参与

# 招银网络科技（深圳）有限公司成都分公司笔试 #

5159次浏览 20人参与

# 毕业论文怎么查AI率 #

85435次浏览 1963人参与

# 网易笔试 #

171576次浏览 812人参与

# 简历上如何体现你的“AI”能力？ #

17576次浏览 383人参与

# 找不到大厂实习可以去小厂吗？ #

23378次浏览 279人参与

# 你总挂在第__面？ #

12605次浏览 150人参与

# 哪些AI项目值得做？ #

27525次浏览 663人参与

# 如何准备秋招 #

81901次浏览 871人参与

# 0offer互助地 #

770175次浏览 4725人参与

# 实习时最怕听到的一句话 #

24324次浏览 226人参与

# 多益网络工作体验 #

70135次浏览 312人参与

# 没有面试的日子里，你在做什么 #

15114次浏览 388人参与

# 秋招被挂春招仍然能投的公司 #

31809次浏览 241人参与

# 秋招开始捡漏了吗 #

244595次浏览 1058人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务