网站介绍:文章浏览阅读109次。第1章 RDD概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.2 RDD的属性一组分区(Partition),即数据集的基本组成单位; 一个计算每个分区的函数; RDD之间的依赖关系; 一个Partitioner,即RDD的分片函数; 一个列表,存储存取每个Partition的优先位置(prefe._大数据技术之spark 第1章
- 链接地址:https://blog.csdn.net/qq_37873221/article/details/108097526
- 链接标题:2.大数据技术之SparkCore_第一章:RDD概述_大数据技术之spark 第1章-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:3189
- 网站标签:大数据技术之spark 第1章