2020-05-09 16:54 已编辑华南理工大学 C++

关注

Python数据处理笔记

Python有多容易忘记, 如果不整理, 过一段时间就完全重新学了. 所以借着这一些练习, 把自己学过的东西记录并总结, 才方便日后回顾.

import pandas as pd
另外可以导入Series和DataFrame，因为这两个经常被用到：

from pandas import Series, DataFrame

DataFrame

生成DataFrame的若干种方式

从文件中来: 最常见的方式

手动生成: 可以根据自己的喜好来定制数据

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 
        'year': [2000, 2001, 2002, 2001, 2002, 2003], 
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
df = pd.DataFrame(data)

一种比较漂亮的生成方式, 里面用的state, year, pop 都成为了columns:

>>> frame.columns
Index(['pop', 'state', 'year'], dtype='object')

    pop   state  year
0  1.5    Ohio  2000
1  1.7    Ohio  2001
2  3.6    Ohio  2002
3  2.4  Nevada  2001
4  2.9  Nevada  2002
5  3.2  Nevada  2003

但是这种方式通常只能适合于比较小的Dict, 如果有定制好的数据集, 那么就要通过dict() 生成各种各样的dictionary对象. 对dict的操作在这里按下不表

获取DataFrame的信息

可以把DataFrame当成一个Excel表格来看待

df2.index看对列序号:

df.columns每一列的名字

隐藏index columns , 只看df2的values:

print(df2.values)

"""
array([[1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo']], dtype=object)
"""

describe():数据总结, 返回数据的mean, std, count 等

df2.describe()

"""
         A    C    D
count  4.0  4.0  4.0
mean   1.0  1.0  3.0
std    0.0  0.0  0.0
min    1.0  1.0  3.0
25%    1.0  1.0  3.0
50%    1.0  1.0  3.0
75%    1.0  1.0  3.0
max    1.0  1.0  3.0
"""

df.T:翻转数据的行列,比较常用的地方如果要对行进行索引

sort_index 进行排序并输出:

print(df2.sort_index(axis=1, ascending=False))

数据中的类型用 dtype这个属性:

print(df2.dtypes)

索引的方式

逗号分开行与列, 如果要分别选取多个行和多个列, 使用['col1','col2'] 分别列出需要的行列

1. `['col']` 字典的访问方式和对象访问方式

data['Colorado']字典的访问方式 [] 内为要访问的Key

data.Colorado 对象访问方式

注意: 这两种方式都不可以使用数字访问

2. `iloc`根据行列的位置

data.loc['Colorado', ['two', 'three']]
data.loc[:,['two']] #选出two所在的列

3. `iloc` 根据行列的名称

同iloc实现相同的效果：

data.iloc[2, [3, 0, 1]]

4. `ix` 混合两种方式

Index 和 Column的选取/重命名

第一个参数为内容,

    groupedDF = pd.DataFrame(grouped, columns=['User Id', 'Rating'] , index= [for i in range (len(grouped))])

df.groupby()

根据'Pclass' 求平均

data.groupby('User Id')['Rating'].mean()
data.groupby('User Id').mean()['Rating']

全部评论

推荐最新楼层

今天 13:39

已编辑

门头沟学院 golang

27届双非go如何抉择

双非27届0暑期实习offer，3月一个面试，4月一个面试，绝大多数都是简历挂，之前实习的中厂发了校招offer（27年入职，没签三方），需要一直实习到毕业，目前是在学校gap，如果没有拿到更好的暑期offer，6月该回去吗求建议

点赞评论收藏

分享

昨天 21:06

华东交通大学后端工程师

目前面的比较多了，首先复试拿下了桂电工作方面：因湃（国企）谈薪完成，到手8K左右，双边公积金+包吃住，年包14-15W左右吧（但是可能会加班）大长江集团，江门那边的，一面过了，在等二面，目前了解到的薪资是8.5K（年包12W左右）+包吃住+三线城市消费低（如果可以拿下就是目前首选offer）中车广东（央企），一面过了，后续还有二面，但是薪资不高6K左右航同电气，一个一般类型的私企（面完当场发了offer），薪资5.5K+包吃住，在新余物价比较便宜珠江金智维，目前还在笔试阶段。。。。。。。。还是老样子，欢迎大家来取面经奥，或者是评论了解一些面试相关经验

点赞评论收藏

分享

04-02 13:42

已编辑

北京航空航天大学后端工程师

字节暑期已offer

算上这次也是三战字节了timeline3.24一面 当晚约二面3.25二面 当晚约三面3.27三面 3.30约HR面4.1HR面4.2 oc+offer加油加油，希望暑期能活下来

点赞评论收藏

分享

03-25 11:15

中山大学 Java

简历求拷打

0实习，boss沟通了快一千个，就一个面试，求问问题出在简历还是招呼语呀？招呼语是：Boss您好，我对您发布的职位非常感兴趣，可以把简历发给您吗？

烂Java害人一生：你这肯定招呼语有问题啊快改了

点赞评论收藏

分享

昨天 22:35

上海对外经贸大学运营

京东内推京东内推京东内推京东内推

京东内推码：C64Z1 京东内推链接： https://campus.jd.com/api/wx/position/index#/?emplErp=C64Z1 欢迎大家投递我们的京东，有问题评论区打出来！ 在京东工作，站在科技创新的前沿！

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 没有面试的日子里，你在做什么 #

4789次浏览 113人参与

# 市场营销人求职交流聚集地 #

207594次浏览 1266人参与

# 华泰星战营，提前锁定校招offer #

9698次浏览 332人参与

# 实习时最怕听到的一句话 #

4970次浏览 57人参与

# 机械人还在等华为开奖吗？ #

332416次浏览 1612人参与

# 你知道最慷慨和最抠的公司分别是 #

5189次浏览 44人参与

# 哪些AI项目值得做？ #

4094次浏览 158人参与

# 简历上如何体现你的“AI”能力？ #

3710次浏览 76人参与

# 你总挂在第__面？ #

2343次浏览 27人参与

# 26届的你们有几段实习？ #

178402次浏览 1110人参与

# 你简历上最心虚的一句话 #

10042次浏览 63人参与

# 找不到大厂实习可以去小厂吗？ #

4736次浏览 41人参与

# 机械笔面试考察这些知识点 #

18365次浏览 140人参与

# 快消秋招求职进展汇总 #

11794次浏览 43人参与

# 嵌入式岗知多少 #

72848次浏览 578人参与

# 实习最晚的一次下班是几点 #

34520次浏览 167人参与

# 找工作的破防时刻 #

290773次浏览 2069人参与

# 一张图晒出你司的标语 #

12612次浏览 88人参与

# 考公VS就业，你怎么选？ #

100926次浏览 535人参与

# 打工人的精神状态 #

150895次浏览 1549人参与

# 深信服求职进展汇总 #

269770次浏览 1834人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务