Spark编程-CSDN博客网友收藏

Spark编程-CSDN博客

文章浏览阅读397次。1. RDD1.1 创建RDD1.1.1 读取外部数据集SparkContext.parallelize()1.1.2 在驱动器程序里分发驱动器程序中的对象集合SparkContext.textFile()1.2 转换RDD (转换操作 transformation):由一个RDD生成一个新RDDmap()filter()union()1.3 调用RD......
阅读全文
Spark高级编程-CSDN博客网友收藏

Spark高级编程-CSDN博客

介绍我们主要介绍两种共享变量类型:accumulators聚合信息,broadcast有效的分发large values。当我们的任务涉及到了需要大量的设置时间(比如创建数据库连接或者随机数生成),我们可以把这个设置时间share到多个数据items上面。......
阅读全文
Spark编程基础总结-CSDN博客网友收藏

Spark编程基础总结-CSDN博客

文章浏览阅读871次。初始化Spark// 创建spark配置val conf = new SparkConf().setAppName(appName).setMaster(master)// SparkContext上下文对象new SparkContext(conf)RDDSSpark 核心的概念是 Resilient Distributed Dataset (RDD):一个可并行操作的有容错机制的数据集合......
阅读全文
Spark高级编程-CSDN博客网友收藏

Spark高级编程-CSDN博客

文章浏览阅读901次。介绍我们主要介绍两种共享变量类型:accumulators聚合信息,broadcast有效的分发large values。当我们的任务涉及到了需要大量的设置时间(比如创建数据库连接或者随机数生成),我们可以把这个设置时间share到......
阅读全文