Spark006---coalesce和repartition_spark coalesce-CSDN博客blog.csdn.net

网站介绍：文章浏览阅读1.2k次。Intro常用的重分区操作，简单记录下coalesce根据数据量缩减分区，用于大数据集过滤后，提高小数据集的执行效率。当 spark 程序中，存在过多的小任务的时候，可以通过 coalesce 方法，收缩合并分区，减少分区的个数，减小任务调度成本默认情况下，不shuffle即增加分区数，没有变化减少分区数，会把该分区数据增加到其他分区中，原有分区数据保持不变import org.apache.spark.sql.SparkSessionimport org.apache.spark.rd_spark coalesce

链接地址：https://blog.csdn.net/wendaomudong_l2d4/article/details/121401582
链接标题：Spark006---coalesce和repartition_spark coalesce-CSDN博客
所属网站：blog.csdn.net
被收藏次数：6453
网站标签：spark coalesce

分享到各大网站