网站介绍:文章浏览阅读646次。Spark分布式计算原理一、RDD特征1、Lineage:血统、遗传2、依赖关系二、DAG(有向无环图)工作原理三、Spark Shuffle过程四、RDD持久化1、RDD缓存机制2、缓存策略3、缓存应用场景4、检查点五、RDD共享变量1、广播变量2、累加器六、RDD分区设计1、分区大小限制为2G2、分区太少3、分区过多4、经验5、数据倾斜一、RDD特征1、Lineage:血统、遗传RDD最重要的特性之一,保存了RDD的依赖关系RDD实现了基于Lineage的容错机制2、依赖关系宽依赖一个_spark数据计算
- 链接地址:https://blog.csdn.net/qq_42578036/article/details/109647993
- 链接标题:Spark分布式计算原理_spark数据计算-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:367
- 网站标签:spark数据计算