Spark分布式计算原理_spark数据计算-CSDN博客blog.csdn.net

网站介绍：文章浏览阅读646次。Spark分布式计算原理一、RDD特征1、Lineage：血统、遗传2、依赖关系二、DAG（有向无环图）工作原理三、Spark Shuffle过程四、RDD持久化1、RDD缓存机制2、缓存策略3、缓存应用场景4、检查点五、RDD共享变量1、广播变量2、累加器六、RDD分区设计1、分区大小限制为2G2、分区太少3、分区过多4、经验5、数据倾斜一、RDD特征1、Lineage：血统、遗传RDD最重要的特性之一，保存了RDD的依赖关系RDD实现了基于Lineage的容错机制2、依赖关系宽依赖一个_spark数据计算

链接地址：https://blog.csdn.net/qq_42578036/article/details/109647993
链接标题：Spark分布式计算原理_spark数据计算-CSDN博客
所属网站：blog.csdn.net
被收藏次数：367
网站标签：spark数据计算

分享到各大网站