【单个csv数据去重遍历每个csv文件并去重】mod

科技2024-04-07 100

对单个csv文件进行去重操作

# 查看重复情况 print("数据重复值：", DF1.duplicated().sum()) # 数据去重，并查看去重后的shape DF2 = DF1.drop_duplicates() print("数据去重后的DF_shape：", DF2.shape) # 数据去重后原索引缺失，需重构索引【注意】 DF2.index = range(DF2.shape[0]) print("数据索引重构结果：", DF2.index) # 查看重构后索引是否完善

遍历某个文件夹下的每个csv文件并去重（该文件夹下最好只有.csv文件，对于Mac电脑每个文件夹下的隐藏文件.DS_Store，需要加一个判断去掉）

import os import pandas as pd filePath = '此处填写目标文件夹绝对路径' os.listdir(filePath) # 显示文件夹下所有文件（列表类型） file_data = os.listdir(filePath) # 将列表复制给一个变量 for each_path in file_data: if each_path != '.DS_Store': df1 = pd.read_csv('/Users/kuma.yang/Desktop/data/'+each_path, index_col=0) print("正在处理：", each_path) # 查看重复情况 print("数据重复值：", df1.duplicated().sum()) # 数据去重，并查看去重后的shape df2 = df1.drop_duplicates() print("数据去重后的DF_shape：", df2.shape) # 将去重后的所有csv保存至新文件夹 df2.to_csv('新文件夹绝对路径'+each_path)

Processed: 0.021, SQL: 9