05-SparkRDD原理和编程接口_sparkrdd程序设计 给定数据文件:test.txt(把这个文件上传到master上) 编写代码-CSDN博客

网站介绍:文章浏览阅读644次。1.弹性分布式数据集RDD1.1.RDD概述1.1.1.什么是RDDRDD(Resilient Distributed DataSet)弹性分布式数据集。是spark中最基本的数据抽象,是一个不可变的、可分区的、可并行计算的集合。Resilient:数据可以选择性的存储在内存中,或者磁盘中Distributed:分布式存储、分布式计算DataSet:用于存放数据的数据集合1.1.2.RDD的属性A list of partitions:分区列表,数据集基本组成单位说明:每个分区对应一个_sparkrdd程序设计 给定数据文件:test.txt(把这个文件上传到master上) 编写代码完