Spark006---coalesce和repartition_spark coalesce-CSDN博客

网站介绍:文章浏览阅读1.2k次。Intro常用的重分区操作,简单记录下coalesce根据数据量缩减分区,用于大数据集过滤后,提高小数据集的执行效率。当 spark 程序中,存在过多的小任务的时候,可以通过 coalesce 方法,收缩合并分区,减少分区的个数,减小任务调度成本默认情况下,不shuffle即增加分区数,没有变化减少分区数,会把该分区数据增加到其他分区中,原有分区数据保持不变import org.apache.spark.sql.SparkSessionimport org.apache.spark.rd_spark coalesce