spark常用的算子

    科技2022-07-11  92

    spark常用的算子

    Spark常用算子详解

    Map():用于RDD中的每一个元素,返回一个新的RDD

    flatMap():用于RDD中的每一个元素,并且集合的每一个元素会作为新RDD的一行。 map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象;而flatMap函数则是两个操作的集合,先映射后扁平化

    groupByKey在方法shuffle之间不会合并原样进行shuffle,reduceByKey进行shuffle之前会先做合并,这样就减少了shuffle的io传送,所以效率高一点。

    spark常用算子总结(附加代码示例)

    Processed: 0.018, SQL: 8