【单个csv数据去重遍历每个csv文件并去重】mod

    科技2024-04-07  84

    对单个csv文件进行去重操作

    # 查看重复情况 print("数据重复值:", DF1.duplicated().sum()) # 数据去重,并查看去重后的shape DF2 = DF1.drop_duplicates() print("数据去重后的DF_shape:", DF2.shape) # 数据去重后原索引缺失,需重构索引【注意】 DF2.index = range(DF2.shape[0]) print("数据索引重构结果:", DF2.index) # 查看重构后索引是否完善

    遍历某个文件夹下的每个csv文件并去重(该文件夹下最好只有.csv文件,对于Mac电脑每个文件夹下的隐藏文件.DS_Store,需要加一个判断去掉)

    import os import pandas as pd filePath = '此处填写目标文件夹绝对路径' os.listdir(filePath) # 显示文件夹下所有文件(列表类型) file_data = os.listdir(filePath) # 将列表复制给一个变量 for each_path in file_data: if each_path != '.DS_Store': df1 = pd.read_csv('/Users/kuma.yang/Desktop/data/'+each_path, index_col=0) print("正在处理:", each_path) # 查看重复情况 print("数据重复值:", df1.duplicated().sum()) # 数据去重,并查看去重后的shape df2 = df1.drop_duplicates() print("数据去重后的DF_shape:", df2.shape) # 将去重后的所有csv保存至新文件夹 df2.to_csv('新文件夹绝对路径'+each_path)
    Processed: 0.011, SQL: 8