网站介绍:文章浏览阅读1.2k次。Intro常用的重分区操作,简单记录下coalesce根据数据量缩减分区,用于大数据集过滤后,提高小数据集的执行效率。当 spark 程序中,存在过多的小任务的时候,可以通过 coalesce 方法,收缩合并分区,减少分区的个数,减小任务调度成本默认情况下,不shuffle即增加分区数,没有变化减少分区数,会把该分区数据增加到其他分区中,原有分区数据保持不变import org.apache.spark.sql.SparkSessionimport org.apache.spark.rd_spark coalesce
- 链接地址:https://blog.csdn.net/wendaomudong_l2d4/article/details/121401582
- 链接标题:Spark006---coalesce和repartition_spark coalesce-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:6453
- 网站标签:spark coalesce