Pandas是一个开源的,BSD许可的库,为Python编程语言提供高性能,易于使用的数据结构和数据分析工具。
Pandas I / O API是一组顶级reader函数访问,如pandas.read_csv(),通常返回一个pandas对象。相应的writer函数是对象方法,其访问方式类似于 DataFrame.to_csv()。
我们经常用到的Reader和Writer函数如下表所示
格式类型文件格式文件导入函数文件输出函数textCSVread_csvto_csvtextJSONread_jsonto_jsontextHTMLread_htmlto_htmlMS EXCELread_excelto_excelbinarySPSSread_spss使用示例如下所示:
import pandas as pd names = ['B', 'A', 'R', 'I', 'O'] df = pd.read_csv('text.py', header = None, names = names,usecols = [0, 1, 2, 3, 4, 5])以上的路径为相对路径,python文件应与text.py于统一目录下才可以读取成功。 以上只是列举了比较常用的几个参数,还有许多许多参数,需要的话可以参考官方文档
通过reader函数得到的数据即为pandas特有的数据类型Series、DataFrame。另外,在使用writer函数时也有类似的参数(一般只需要文件路径filepath_or_buffer参数即可),此时也需要使用该类型的数据格式。
第一次写博客,写得不太好的地方还请多多包涵。在数据分析,爬虫爬取得到的乱七八糟的数据中,pandas提供的强大的数据处理功能让我十分愉快。希望我能够在之后学习的过程中慢慢消化知识,分享知识,也欢迎大家多多和我交流 bario.tan@qq.com。