网站介绍:文章浏览阅读77次。RDD概述:什么是RDD:RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合;RDD的属性:① 一组分区(Partition),即数据集的基本组成单位;② 一个计算每个分区的函数;③ RDD之间的依赖关系;④ 一个Partitioner,即..._rdd 逻辑上是分区的,每个分区的数据是抽象存在的,计算的时候会通过一个compute函
- 链接地址:https://blog.csdn.net/weixin_44757575/article/details/102681495
- 链接标题:2)SparkCore(RDD概述)_rdd 逻辑上是分区的,每个分区的数据是抽象存在的,计算的时候会通过一个compute函-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:3758
- 网站标签:rdd 逻辑上是分区的 每个分区的数据是抽象存在的 计算的时候会通过一个compute函