Fork me on GitHub

RDD算子总结

RDD算子总结

从功能上分:

转换算子(transformer): lazy执行,生成新的rdd,只有在调用action算子时,才会真正的执行。
如:

行动算子(action): 触发任务执行,产生job,返回值不再是rdd。
如:

从作用上分:

通用的: map、 flatMap、 distinct、 union

作用于RDD[K,V]: mapValues、 reduceByKey、 groupByKey、 sortByKey、

转换算子是否有shuffle

shuffle类: reduceByKey、 groupByKey、 groupBy、 join、 distinct、 repartition

非shuffle类: map、 filter、 union、flatMap、 coalesce

Spark算子使用案例总结

支持一下^-^
0%