机器学习前的准备(一):pandas基础(有待补充)

    科技2024-09-30  24

    文章目录

    一、pandas是什么?二、使用步骤0.安装库1.引入库2.读入数据并查看数据信息3.预处理数据并写出数据 总结


    一、pandas是什么?

    pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。 pandas=panel(面板数据,通常存储三维数据)+data+analysis。 pandas封存了Numpy、matplotlib的计算和画图,既具有Numpy强大的计算优势,也有matplotlib的画图功能,还有能方便操作数据的独特数据结构。 所以,在这里我主要介绍pandas对数据的存取,数据结构和基本操作。

    二、使用步骤

    0.安装库

    使用命令行工具可以直接安装pandas库

    pip install pandas

    1.引入库

    在.py文件中引入pandas模块,并取别名为pd

    import pandas as pd

    2.读入数据并查看数据信息

    读取当前.py文件所在目录下的csv数据,并查看数据的相关信息。 csv文件是以纯文本形式存储表格数据(数字和文本),可以用excel或者记事本来查看,但最好用记事本编辑。

    data = pd.read_csv('test.csv') print(data)

    输出:

    print("查看数据的首部数据,默认是5行:\n",data.head()) print("查看数据的尾部数据,默认是5行:\n",data.tail())

    输出:

    print("查看数据的维度,例如m行n列:\n",data.shape) print("查看数据的基本信息:\n", data.info()) print("查看每一列的数据类型:\n", data.dtypes)

    输出:

    print("查看某一列数据的类型,例如年龄:\n", data['age'].dtype) print("查看某一列的空值,例如年龄:\n", data['age'].isnull) print("查看某一列的唯一值,例如年龄:\n", data['age'].unique()) print("查看数据表的值:\n", data.values)

    输出:

    print("查看第9行第0列的数据:\n",data.iloc[8, 0])

    输出:

    3.预处理数据并写出数据

    现在填入第21行数据,其中身高为NaN(也就是空)。 这里用前20行身高的平均值来填充该行的身高,并使用iloc来获取最后一行的数据,并输出。

    data['high'] = data['high'].fillna(data['high'].mean()) print(data.iloc[20,:])

    输出: 将处理后的数据输出到.py文件所在的目录中。

    data.to_csv('new_test.csv')

    打开该文件后,结果为:


    总结

    以上就是今天要讲的内容,作者是第一次使用写博客,在内容介绍,文字撰写上难免有所不足,以后会用心改进。这篇博客仅仅简单介绍了pandas的安装、对csv文件的读入、写出与查看操作,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法,今后会慢慢补充。

    Processed: 0.012, SQL: 8