网站介绍:文章浏览阅读233次。groupByKey这个方法生成新的stage,并且源代码是写在PairRDDFunctions中,不是调用新建一个MapPartitionsRDD了,这个方法是map端和reduce端得交互,map端处理完数据会先将数据ShuffleWrite溢写到map端得磁盘,然后reduce端通过网络进行拉取ShuffleRead过来之于为什么OutPut会变少,是因为输出的文件 key都合并了 没有之前那么多key了 但是value还是之前那么多还有一个问题值得讨论,就是怎么定的分区规则,其实如..._spark shuffle类算子
- 链接地址:https://blog.csdn.net/reddy_Hu/article/details/107898668
- 链接标题:Spark-算子之shuffle类_spark shuffle类算子-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:6919
- 网站标签:spark shuffle类算子