网站介绍:文章浏览阅读2.2k次。1、什么是RDDRDD(Resilient Distributed Dataset)叫做弹性的分布式数据集合,是Spark中最基本的数据抽象,它代表一个不可变、只读的,被分区的数据集。弹性的体现:RDD可以通过lineage(血统)进行恢复、数据持久化(内存、磁盘、序列化)。分布式的体现:RDD是被分区的。不同的分区在不同的worker上。对开发者而言,RDD可以看作是Spark的一个对象,它本身运行于内存中,如读文件是一个RDD,对文件计算是一个RDD,结果集也是一个RDD ,不同的分片、_spark和rdd的关系
- 链接地址:https://blog.csdn.net/qq_42456324/article/details/124452931
- 链接标题:Spark的RDD介绍_spark和rdd的关系-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:1356
- 网站标签:spark和rdd的关系