广播变量-CSDN博客

网站介绍:文章浏览阅读1.1k次。有一个大的数据集和一个小的数据集,把每一个小的数据集在每一个executor里面进行缓存,大的小的数据集放在hdfs里面,如果传统的方法,那么就是调用join ,join.底层就是cogroup方法,1.先把小的数据处理一下,但是每个Task只是读取部分数据,然后把每个Task的部分数据缓存起来,2.读取大的数据,然后关联一些规则数据,也就是缓存起来的那部分小数据,但也有可能关联不上,当前的应用需要在executor里面进行缓存,3.在进行广播应用的时候,只需要把数据广播到当前任务的execu._广播变量