SPARK-艾客网

spark order by + limit 导致 java.lang.OutOfMemoryError: Java heap space_com.fasterxml.jackson.core.util.bufferrecycler-CSDN博客

文章浏览阅读501次。java.lang.OutOfMemoryError: Java heap space spark sql_com.fasterxml.jackson.core.util.bufferrecycler...

2024-01-23 01:37 评论 0 阅读

第4讲：Scala模式匹配、类型系统彻底精通与Spark源码阅读_exception getting thread dump from executor 1-CSDN博客

文章浏览阅读928次。简介：本篇文章主要要点有： Scala模式匹配彻底详解 Scala类型系统彻底详解 Spark源码阅读及作业 1. Scala模式匹配彻底详解 Scala中的模式匹配类似于java中的switch case，但是switch case是对值进行匹......

2024-01-23 13:10 评论 0 阅读

阅读全文

Oozie&nbsp;4.3.0运行Error:&nbsp;…_oozie.service.sparkconfigurationservice.spark.conf-CSDN博客

Oozie 4.3.0运行Error: …_oozie.service.sparkconfigurationservice.spark.conf-CSDN博客

文章浏览阅读839次。fs://master2host:9000/user/master2/share/lib/spark/py4j-0.9.jar,hdfs://master2host:9000/user/master2/share/lib/spark/avro-ipc-1.7.7-tests.jar,hdfs://master2host:9000/user/master2/share/lib/spark/quasi_oozie.service.sparkconfigurationservice.spark.configurations...

2024-01-24 05:19 评论 0 阅读

阅读全文

《大数据： Flume 介绍与安装部署》_1 spark streaming + flume 1.安装 flume flume 是 cloud-CSDN博客

一、Flume 介绍Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单Flume最主要的作用就是实时读取服务器本地磁盘的数据，将数据写入到HDFS中1. 为什么选择 Flume......

2023-10-09 22:57 评论 0 阅读

阅读全文

Spark Core_partitioner函数不但决定了rdd本身的分片数量,也决定了parent rdd shuffl-CSDN博客

文章浏览阅读958次。一 RDD概念1 RDD为什么会产生2 RDD概述21 什么是RDD22 RDD的属性3 13 RDD弹性4 RDD特点41 分区42 只读43 依赖44 缓存45 checkpoint二 RDD编程1 编程模型2 22 创建RDD一、 RDD概念1.1 RDD为什么会产生RDD是Spark的基......

2024-01-22 16:14 评论 0 阅读

阅读全文

Spark从入门到精通三------scala版本的wordcount---java版本的wordcount----java-lambda版本的wordcount-CSDN博客

2024-01-24 07:43 评论 0 阅读

阅读全文

Spark & Scala scala编程案例:统计学生成绩_scala实验一(2) :利用rdd和pairrdd学生信息统计-CSDN博客

文章浏览阅读9.5k次，点赞9次，收藏80次。Scala 统计学生成绩题干学生的成绩清单格式如下所示，第一行为表头，各字段意思分别为学号、性别、课程名 1、课程名 2 等，后面每一行代表一个学生的信息，各字段之间用空白符隔开......

2024-01-23 01:13 评论 0 阅读

阅读全文

SparkSQL读取MySQL数据tinyint字段转换成boolean类型的解决方案_spark withcolumn int 转boolean-CSDN博客

文章浏览阅读1.5k次。最近在做弄sparksql,在读取mysql数据的时候发现一个问题, 在数据库将字段定义成tinyint,并且长度为1的时候,读取到spark里面,被转换成Boolean类型的字段了.测试表定义CREATE TABLE `test1` ( `id` bigint(4) NOT NULL AUTO_INCREMEN......

2024-01-24 05:54 评论 0 阅读

阅读全文

Spark 权威指南第20章流处理基础_dstreamapi提供的map 函数执行的是离散流的 (操作-CSDN博客

文章浏览阅读244次。流处理基础Apache Spark一直支持流处理。在2012年，该项目合并了Spark Streaming及其DStream API，这是第一个能够使用例如map和reduce这样的高级函数进行流处理的API。现在，数以百计的组织在生产中使用DStreams来实现......

2024-01-24 07:52 评论 0 阅读

阅读全文

本地Spark连接Hive异常问题_failed to get database global_temp, returning nosu-CSDN博客

文章浏览阅读6.5k次，点赞2次，收藏7次。环境：idea spark2.2 hive1.1 maven3场景：本地运行Spark代码，连接Hive集群查询数据：本地设置了SPARK_HOME、SCALA_HOME将hive-site.xml复制到本地的%SPARK_HOME%/conf/路径下代码如下：def main(args: Array[String])......

2024-01-24 00:05 评论 0 阅读

阅读全文