spark常用的算子
Spark常用算子详解
Map():用于RDD中的每一个元素,返回一个新的RDD
flatMap():用于RDD中的每一个元素,并且集合的每一个元素会作为新RDD的一行。 map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象;而flatMap函数则是两个操作的集合,先映射后扁平化
groupByKey在方法shuffle之间不会合并原样进行shuffle,reduceByKey进行shuffle之前会先做合并,这样就减少了shuffle的io传送,所以效率高一点。
spark常用算子总结(附加代码示例)