【对某文件夹下多个csv文件合并后去重】mod

科技2024-05-25 90

import pandas as pd import glob # 合并函数 def marge(csv_list, output_csv_path): for inputfile in csv_list: f = open(inputfile, 'r', encoding='utf-8') data = pd.read_csv(f) data.to_csv(output_csv_path, mode='a', index=False) print('完成合并') # 去重函数 def distinct(file): df = pd.read_csv(file,header=None) datalist = df.drop_duplicates() datalist.to_csv('此处填写去重后的新csv文件路径', index=False, header=False) print('完成去重') # 获取文件夹下所有csv文件 csv_list = glob.glob('此处填写包含所有csv文件的文件夹路径/*.csv') # *.csv即为匹配所有.csv文件 # 自定义合并后的新输出文件路径 output_csv_path = '/新路径/xx.csv' # 所有csv文件信息 for each_csv in csv_list: print(each_csv) # 合并所有csv文件 marge(csv_list, output_csv_path) # 对output_csv_path中已经完成合并的总文件去重，生成最终文件 distinct(output_csv_path)

Processed: 5.615, SQL: 9