文章浏览阅读1.9w次,点赞4次,收藏44次。_spark语法...
2024-01-21 12:34 阅读 阅读全文文章浏览阅读1.9w次,点赞4次,收藏44次。_spark语法...
2024-01-21 12:34 阅读 阅读全文文章浏览阅读3k次。1.Scala简介 Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。 java之父JamesGosling也曾说过,在java虚拟机JVM上,他除了用java......
2024-01-23 13:47 阅读 阅读全文文章浏览阅读712次。# pandas 和 pyspark dataframe 互换# pandas 里的每一列里的所有元素必须是同一种 type 类型才可转换spark_df = spark.createDataFrame(pandas_df)pandas_df = spark_df.toPandas()# 保存分区表(覆盖 & 追加)df.write.saveAsTable("db.table&......
2024-01-23 13:52 阅读 阅读全文文章浏览阅读267次。Spark Streaming是Spark Core API(Spark RDD)的扩展,支持对实时数据流进行可伸缩、高吞吐量及容错处理。数据可以从Kafka、Flume、Kinesis或TCPSocket等多种来源获取,并且可以使用复杂的算法处理数据,这些算法由map()......
2024-01-23 10:56 阅读 阅读全文文章浏览阅读274次。Scala部分在Scala中一切皆对象,一个数字也是一个对象,后面的加号就是方法。在Scala语言中object是一个单例对象,定义在单例对象里面的所有的方法都是一个静态方法,不需要实例化就可以执行,不需要像Jav......
2023-11-11 18:08 阅读 阅读全文文章浏览阅读2.1k次。Flink():实时性高,吞吐量高,离线+实时算子较为丰富Spark Streaming():有延迟(毫秒级别),吞吐量高,离线+实时算子丰富,可以做机器学习,图计算(生态圈)flink的批处理实际上流处理,只是把一个批处......
2024-01-23 02:24 阅读 阅读全文文章浏览阅读203次。1.继承Aggregator2.实现方法3.注册函数4.通过DataSet数据集获取结果package com.wxx.bigdata.sql03 import org.apache.spark.sql.{Encoders, SparkSession}import org.apache.spark.sql.expressions.Aggregator object CustomerUDAFClassAPP { def main(args: Array[String......
2024-01-21 12:50 阅读 阅读全文文章浏览阅读5.4k次,点赞2次,收藏6次。前言因为spark集群的换代升级, 需要从scala 2.11 升级到scala 2.12 spark2升级到spark 3。本篇博客主要讲述南国在将spark 作业升级时遇到的问题和解决办法。具体步骤1.升级spark相关依赖针对于pom......
2024-01-23 10:54 阅读 阅读全文文章浏览阅读972次。sparksql的hints语法【官网摘抄】_sparksql hints...
2024-01-23 03:06 阅读 阅读全文