spark利用cache优化shuffle_spark.sql.autobroadcastjointhreshold包含cache的表吗-CSDN博客blog.csdn.net

网站介绍：文章浏览阅读627次。cache表，数据放内存，数据被广播到Executor，将多份数据进行关联是数据处理过程中非常普遍的用法，不过在分布式计算系统中，这个问题往往会变的非常麻烦，因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去，也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗，运行效率极其低下，这个过程一般被称为 reduce-side-join。如果其中有张表较小的话，我们则可以自己实现在 map 端实现数据关联，跳过大量数据进行 shuffle 的过程，_spark.sql.autobroadcastjointhreshold包含cache的表吗

链接地址：https://blog.csdn.net/a308601801/article/details/112109619
链接标题：spark利用cache优化shuffle_spark.sql.autobroadcastjointhreshold包含cache的表吗-CSDN博客
所属网站：blog.csdn.net
被收藏次数：5453
网站标签：spark.sql.autobroadcastjointhreshold包含cache的表吗

分享到各大网站