SparkSQL底层具体实现的3种方式详解_spark中join的底层实现过程-CSDN博客

网站介绍:文章浏览阅读340次。引言join是SQL中的常用操作,良好的表结构能够将数据分散到不同的表中,使其符合某种规范(mysql三大范式),可以最大程度的减少数据冗余,更新容错等,而建立表和表之间关系的最佳方式就是join操作。对于Spark来说有3种Join的实现,每种Join对应的不同的应用场景(SparkSQL自动决策使用哪种实现范式):  1.Broadcast Hash Join:适合一张很小的表和一张大表进行Join;  2.Shuffle Hash Join:适合一张小表(比上一个大一点)和一张大表进行_spark中join的底层实现过程