pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。 pandas=panel(面板数据,通常存储三维数据)+data+analysis。 pandas封存了Numpy、matplotlib的计算和画图,既具有Numpy强大的计算优势,也有matplotlib的画图功能,还有能方便操作数据的独特数据结构。 所以,在这里我主要介绍pandas对数据的存取,数据结构和基本操作。
使用命令行工具可以直接安装pandas库
pip install pandas在.py文件中引入pandas模块,并取别名为pd
import pandas as pd读取当前.py文件所在目录下的csv数据,并查看数据的相关信息。 csv文件是以纯文本形式存储表格数据(数字和文本),可以用excel或者记事本来查看,但最好用记事本编辑。
data = pd.read_csv('test.csv') print(data)输出:
print("查看数据的首部数据,默认是5行:\n",data.head()) print("查看数据的尾部数据,默认是5行:\n",data.tail())输出:
print("查看数据的维度,例如m行n列:\n",data.shape) print("查看数据的基本信息:\n", data.info()) print("查看每一列的数据类型:\n", data.dtypes)输出:
print("查看某一列数据的类型,例如年龄:\n", data['age'].dtype) print("查看某一列的空值,例如年龄:\n", data['age'].isnull) print("查看某一列的唯一值,例如年龄:\n", data['age'].unique()) print("查看数据表的值:\n", data.values)输出:
print("查看第9行第0列的数据:\n",data.iloc[8, 0])输出:
现在填入第21行数据,其中身高为NaN(也就是空)。 这里用前20行身高的平均值来填充该行的身高,并使用iloc来获取最后一行的数据,并输出。
data['high'] = data['high'].fillna(data['high'].mean()) print(data.iloc[20,:])输出: 将处理后的数据输出到.py文件所在的目录中。
data.to_csv('new_test.csv')打开该文件后,结果为:
以上就是今天要讲的内容,作者是第一次使用写博客,在内容介绍,文字撰写上难免有所不足,以后会用心改进。这篇博客仅仅简单介绍了pandas的安装、对csv文件的读入、写出与查看操作,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法,今后会慢慢补充。