Spark-算子之shuffle类_spark shuffle类算子-CSDN博客

网站介绍:文章浏览阅读233次。groupByKey这个方法生成新的stage,并且源代码是写在PairRDDFunctions中,不是调用新建一个MapPartitionsRDD了,这个方法是map端和reduce端得交互,map端处理完数据会先将数据ShuffleWrite溢写到map端得磁盘,然后reduce端通过网络进行拉取ShuffleRead过来之于为什么OutPut会变少,是因为输出的文件 key都合并了 没有之前那么多key了 但是value还是之前那么多还有一个问题值得讨论,就是怎么定的分区规则,其实如..._spark shuffle类算子