题解 | #文件最后用户的部分数据#
文件最后用户的部分数据
https://www.nowcoder.com/practice/f1638a42ae3548bd9814df1487abe8a2
import pandas as pd df = pd.read_csv('Nowcoder.csv') col = [0,1,2,5] print(df.iloc[-5:-1,col])
关于dytype
pd.read_csv('Nowcoder.csv')
会尝试自动推断每列的数据类型,而pd.read_csv('Nowcoder.csv', dtype=object)
会将所有列的数据类型设置为object
。
如果不指定数据类型(即第一个例子),pandas会尝试推断每个列的数据类型,这可能会导致一些列被错误地解释为不同的类型,从而可能导致错误。指定dtype=object
可以确保所有列都被解释为Python对象(即字符串),这对于某些情况可能是有用的。
另一方面,指定正确的数据类型可以提高性能和减少内存使用,因为pandas可以更好地利用数据类型的信息进行优化。 因此,如果您已经知道每列的正确数据类型,则最好指定它们。
在 pandas 中,数据类型object
表示一个通用的 Python 对象,可以存储任何 Python 对象类型,包括字符串、整数、浮点数、列表、字典、自定义类等。将数据类型设置为object
表示将每个数据点解释为 Python 对象,而不是尝试自动推断数据类型。这种设置在某些情况下可能很有用,比如:
- 数据集中的某些列包含混合类型的数据(如字符串和数字),而不是单一的数据类型。
- 某些列的数据类型无法被 pandas 正确地推断。
- 想要在使用数据时动态地处理数据类型的情况。
但是,由于 object
类型是一个通用的 Python 对象,其存储和处理速度通常比其他数据类型要慢,并且占用更多的内存空间,因此只有在确实需要时才应将数据类型设置为 object
。