distinct和dropDuplicates

    科技2025-11-28  12

    distinct数据去重

    使用distinct:返回当前DataFrame中不重复的Row记录。该方法和接下来的dropDuplicates()方法不传入指定字段时的结果相同。

    dropDuplicates:根据指定字段去重

    跟distinct方法不同的是,此方法可以根据指定字段去重。例如我们想要去掉相同用户通过相同渠道下单的数据:

    df.dropDuplicates("user","type").show() 输出: +---+----+----+--------------------+ | id|user|type| visittime| +---+----+----+--------------------+ | 8| 3|APP2|2017-08-03 13:44:...| | 1| 1| 助手1|2017-08-10 13:44:...| | 7| 3| 助手2|2017-08-14 13:44:...| | 12| 1| 助手2|2017-07-07 13:45:...| | 3| 2| 助手1|2017-08-05 13:44:...| | 5| 3|APP1|2017-08-02 13:44:...| | 9| 2|APP2|2017-08-11 13:44:...| | 2| 1|APP1|2017-08-04 13:44:...| +---+----+----+--------------------+

     

    Processed: 0.015, SQL: 9