文章浏览阅读676次。在开始之前,我先介绍一下,RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存......
2024-01-23 23:46 阅读 阅读全文文章浏览阅读1.3k次。####遇到一个问题。spark sql dataset 写入表的时候,我写的是一个用ymd分区的表,我想设置输出格式format(“hive”),然后报错了代码如下ds.write().partitionBy(partitionsStr) .option("path", hdfspath) ......
2024-01-25 06:40 阅读 阅读全文Spark全栈数据分析是由(美)罗素·朱尼著作,电子工业出版社出版,本书介绍了作者提出的基于Spark 的敏捷数据科学方法论,结合作者在行业中多年的实际工作经验,为数据科学团队提供了一套以类似敏捷开发的方法开展数据科......
2023-10-13 06:53 阅读 阅读全文文章浏览阅读269次。1.1 为什么要学Scala语言[1] 1.优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户体验。Martin OrderSke (scala发人)Epel瑞士科技大学 Javac是Matin编写的 让程序员......
2024-01-23 05:08 阅读 阅读全文文章浏览阅读221次。RDD的转换算子之单Value类型文章目录RDD的转换算子之单Value类型1. map(func)2. mapPartitions(func)3. mapPartitionsWithIndex(func)4. flatMap(func)5. glom6. groupBy(func)7. filter(func)8. sample(withReplacement, fraction, seed)9. distinct([numTasks])10 coal......
2024-01-23 16:35 阅读 阅读全文Spark全栈数据分析是由(美)罗素·朱尼著作,电子工业出版社出版,本书介绍了作者提出的基于Spark 的敏捷数据科学方法论,结合作者在行业中多年的实际工作经验,为数据科学团队提供了一套以类似敏捷开发的方法开展数据科......
2024-01-23 20:29 阅读 阅读全文文章浏览阅读1w次。updateStateByKey可以在指定的批次间隔内返回之前的全部历史数据,包括新增的,改变的和没有改变的。由于updateStateByKey在使用的时候一定要做checkpoint,当数据量过大的时候,checkpoint会占据庞大的数据量,会影......
2024-01-24 00:13 阅读 阅读全文文章浏览阅读703次。由于spark-shell 停止掉后,集群监控页面就看不到历史任务的运行情况,所以开发时都配置历史服务器记录任务运行情况。步骤修改 spark-defaults.conf.template 文件名为spark-defaults.conf[root@hadoop102 spark-standalone]# mv spa......
2024-01-24 07:16 阅读 阅读全文文章浏览阅读2.7k次。shuffle过程中分为shuffle write和shuffle read,而且会在不同的stage中进行的 在进行一个key对应的values的聚合时, 首先,上一个stage的每个map task就必须保证将自己处理的当前分区中的数据相同key写入一个分区文件......
2024-01-23 04:29 阅读 阅读全文文章浏览阅读87次。RDD是一个弹性、可复原的分布式的数据集RDD中装的数据是数据的描述信息,描述了从哪读数据,调用什么方法,传入什么函数,一级依赖关系等RDD特点:1.有一些连续的分区:分区编号从0开始,分区数量决定了Task的并......
2024-01-23 20:02 阅读 阅读全文