Spark-算子之shuffle类_spark shuffle类算子-CSDN博客blog.csdn.net

网站介绍：文章浏览阅读233次。groupByKey这个方法生成新的stage,并且源代码是写在PairRDDFunctions中,不是调用新建一个MapPartitionsRDD了,这个方法是map端和reduce端得交互,map端处理完数据会先将数据ShuffleWrite溢写到map端得磁盘,然后reduce端通过网络进行拉取ShuffleRead过来之于为什么OutPut会变少,是因为输出的文件 key都合并了没有之前那么多key了但是value还是之前那么多还有一个问题值得讨论,就是怎么定的分区规则,其实如..._spark shuffle类算子

链接地址：https://blog.csdn.net/reddy_Hu/article/details/107898668
链接标题：Spark-算子之shuffle类_spark shuffle类算子-CSDN博客
所属网站：blog.csdn.net
被收藏次数：6919
网站标签：spark shuffle类算子

分享到各大网站