hive中的join相关的优化_hivejoin优化-CSDN博客

网站介绍:文章浏览阅读3.2k次。1、mapjoin顾明思议,mapJoin的意思就是,当链接的两个表是一个比较小的表和一个特别大的表的时候,我们把比较小的table直接放到内存中去,然后再对比较大的表格进行map操作(执行mr过程的map操作)。join就发生在map操作的时候,每当扫描一个大的table中的数据,就要去去查看小表的数据,哪条与之相符,继而进行连接。这里的join会在map阶段完成,仅仅是在内存就进行了两个表的join,并不会涉及reduce操作。map端join的优势就是在于没有shuffle,从而提高效率。在实际的_hivejoin优化