Spark RDD的依赖于DAG的工作原理_sparkdag运行原理-CSDN博客

网站介绍:文章浏览阅读566次,点赞3次,收藏6次。目录RDD的依赖RDD的宽窄依赖DAG工作原理划分Stage的原因Spark Shuffler过程在进行本篇之前,如果还有对Spark的一些基础概念不太明白的可以参考一下这篇博文:Spark核心组件、运行架构RDD的依赖RDD是一种弹性分布式数据集,我们以图示的形式来展示一下它的原理:RDD的宽窄依赖Lineage:血统、遗传RDD最重要的特性之一,保存了RDD的依赖关系;RDD实现了基于Lineage的容错机制;依赖关系宽依赖:一个父RDD的分区被子RDD的多个分区使用;窄依_sparkdag运行原理