机器学习前的准备（一）：pandas基础（有待补充）

科技2024-09-30 129

文章目录

一、pandas是什么？二、使用步骤0.安装库1.引入库2.读入数据并查看数据信息3.预处理数据并写出数据总结

一、pandas是什么？

pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。 pandas=panel(面板数据，通常存储三维数据)+data+analysis。 pandas封存了Numpy、matplotlib的计算和画图，既具有Numpy强大的计算优势，也有matplotlib的画图功能，还有能方便操作数据的独特数据结构。所以，在这里我主要介绍pandas对数据的存取，数据结构和基本操作。

二、使用步骤

0.安装库

使用命令行工具可以直接安装pandas库

pip install pandas

1.引入库

在.py文件中引入pandas模块，并取别名为pd

import pandas as pd

2.读入数据并查看数据信息

读取当前.py文件所在目录下的csv数据，并查看数据的相关信息。 csv文件是以纯文本形式存储表格数据（数字和文本），可以用excel或者记事本来查看，但最好用记事本编辑。

data = pd.read_csv('test.csv') print(data)

输出：

print("查看数据的首部数据，默认是5行：\n",data.head()) print("查看数据的尾部数据，默认是5行：\n",data.tail())

输出：

print("查看数据的维度，例如m行n列：\n",data.shape) print("查看数据的基本信息：\n", data.info()) print("查看每一列的数据类型：\n", data.dtypes)

输出：

print("查看某一列数据的类型，例如年龄：\n", data['age'].dtype) print("查看某一列的空值，例如年龄：\n", data['age'].isnull) print("查看某一列的唯一值，例如年龄：\n", data['age'].unique()) print("查看数据表的值：\n", data.values)

输出：

print("查看第9行第0列的数据：\n",data.iloc[8, 0])

输出：

3.预处理数据并写出数据

现在填入第21行数据，其中身高为NaN（也就是空）。这里用前20行身高的平均值来填充该行的身高，并使用iloc来获取最后一行的数据，并输出。

data['high'] = data['high'].fillna(data['high'].mean()) print(data.iloc[20,:])

输出：将处理后的数据输出到.py文件所在的目录中。

data.to_csv('new_test.csv')

打开该文件后，结果为：

总结

以上就是今天要讲的内容，作者是第一次使用写博客，在内容介绍，文字撰写上难免有所不足，以后会用心改进。这篇博客仅仅简单介绍了pandas的安装、对csv文件的读入、写出与查看操作，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法，今后会慢慢补充。

Processed: 0.010, SQL: 9