spark利用cache优化shuffle_spark.sql.autobroadcastjointhreshold包含cache的表吗-CSDN博客

网站介绍:文章浏览阅读627次。cache表,数据放内存,数据被广播到Executor,将多份数据进行关联是数据处理过程中非常普遍的用法,不过在分布式计算系统中,这个问题往往会变的非常麻烦,因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去,也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗,运行效率极其低下,这个过程一般被称为 reduce-side-join。如果其中有张表较小的话,我们则可以自己实现在 map 端实现数据关联,跳过大量数据进行 shuffle 的过程,_spark.sql.autobroadcastjointhreshold包含cache的表吗