文章浏览阅读811次。目录Spark核心组件Spark运行架构RDDDAG:有向无环图RDD创建RDD创建方式一:parallelizeRDD创建方式二:makeRDD分区设置textFile创建RDDlinux中创建RDDSpark核心组件在解释Spark架构之前,我们先来了解一下Spark的几个核心组......
2024-01-21 11:46 阅读 阅读全文文章浏览阅读217次。第二节、Spark核心核心组件、概念一、RDD1.RDD(Resilient Distributed Datesets)弹性分布式数据集①RDD是Spark中计算和数据的抽象,它标识已经分片(partition),不可变的并能够被并行计算的数据集合。②RDD可以被存储在......
2024-01-23 02:45 阅读 阅读全文文章浏览阅读190次。目录一、RDD概念二、RDD做了什么三、RDD一、RDD概念RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表⼀个不可变、可分区、⾥⾯的元素可并⾏计算的集合。RDD具有数据......
2024-01-21 12:50 阅读 阅读全文