数据分析学习记录begin-----DAY1
1.用pandas查看牛客网用户数据:
read_csv:是读取csv文件,其他形式文件,是其他的read_excel之类的
2.牛客网用户数据集的大小:
获取数据规模:Nowcoder.shape(注意输出形式)
3.牛客网的第10位用户:
分清楚iloc和loc的区别:
iloc通过行号定位,iloc【行索引,列索引】
loc通过索引定位,loc【行索引,列名/column 】(列名注意是字符串加引号)
若不写列索引,只写行索引,输出的内容是带第一行的行名的
4.统计牛客网部分用户使用语言
行索引如果是单独一行,就写数字,
如果是其中的几行就写10:20这种形式代表范围
读取全部列:df["age"]
5.牛客网用户没有补全的信息:
- isnull: 判断是否为空。
返回bool类型的值:True or False
- any:返回是否至少一个元素为真
all:返回是否所有元素为真(每一列的全部数值进行空值判断。只有该列全部数值都为空值,这一列才会返回True;否则就返回False。)
一开始只用了df.isnull(),那么最后返回的是整个数据集df是否有空值的判断,即它会显示每一行和每一列的每一个位置都会判断他是True(有空值)还是False(没有空值)。
正确的解题思路是还要在后面加上一个any()函数,也就是df.isnull().any()。表示该列中存在任意一个空值,它就会返回True;否则返回False。
#学习笔记#