文章浏览阅读198次。RDD的转换算子之双Value类型文章目录RDD的转换算子之双Value类型1. union(otherDataSet)2. subtract(otherDataSet)3. intersection(otherDataSet)4. cartesian(otherDataSet)5. zip(otherDataSet)1. union(otherDataSet)作用: 求并集,对源 RDD 和参数 RDD ......
2024-01-23 16:35 阅读 阅读全文文章浏览阅读445次。内容简介一、Spark二次排序的概念二、实现二次排序的详细步骤(Java语言)三、二次排序代码演示1.Java版本2.Scala版本四、总结一、Spark二次排序的概念排序操作是数据处理过程中的常用操作步骤,Spark提供了诸......
2024-01-22 22:14 阅读 阅读全文文章浏览阅读222次。spark学习笔记—核心算子(一)HashPartitioner的决定分区的逻辑核心方法 def getPartition(key: Any): Int = key match { case null => 0 case _ => Utils.nonNegativeMod(key.hashCode, numPartitions) } /* Calculates 'x' modulo 'mod', takes to consid......
2024-01-23 22:25 阅读 阅读全文文章浏览阅读210次。0.intersection求交集功能:是对两个rdd或者两个集合,求共同的部分,比如第一个rdd中有的数据并且第二个rdd中也有的数据,取出相同的元素(会去重)底层:底层调用的cogroup,map将数据本身当成key,null当成value,然后......
2024-01-22 15:52 阅读 阅读全文文章浏览阅读213次。1 map + reduceByKey sparkContext.textFile("hdfs://ifeng:9000/hdfsapi/wc.txt") .flatMap(_.split(",")) .map((_,1)) .reduceByKey(_+_).collect()2 countByValue代替map + reduceByKeyval RDDfile = sparkContext.textFile("hdfs://ife......
2024-01-23 16:50 阅读 阅读全文文章浏览阅读185次。Spark之RDD 共享变量Spark提供了两种类型的变量:广播变量广播变量允许开发人员在每个节点(Worker or Executor)缓存只读变量,而不是在Task之间传递这些变量。 可以通过调用sc.broadcast(v)创建一个广播变量,......
2024-01-23 23:07 阅读 阅读全文文章浏览阅读310次。所有的Action算子底层都是直接或间接调用了runJob方法触发Action的collect将数据收集到Driver端,并且收集的时候,是按分区编号的顺序进行收集的,所以sort排序后的数据展示出来才能看出是排好序的,collect有一个问......
2024-01-23 02:51 阅读 阅读全文文章浏览阅读196次。1.Application使用SparkSubmit提交的个计算应用,一个Application中可以触发一到多次Action,触发一次Action形成一个DAG,一个DAG对应一个Job,一个Application中可以有一到多个Job2.JobDriver向Executor提交的作业,触发一次Acition形......
2024-01-22 15:52 阅读 阅读全文文章浏览阅读891次。spark sql 一.概述1 spark历史2 Spark-SQL 概述2.1 特点2.2 作用2.3 Spark SQL架构图 3 Dataset演进历史3.1 RDD3.1.1 优点3.1.2 缺点 3.2 DataFrame3.2.1 优点3.2.2 缺点3.2.3 核心特征 3.3 Dataset3.3.1 区别3.3.2 特点 4 SparkSQL API4.1创......
2024-01-22 17:34 阅读 阅读全文