文章浏览阅读501次。java.lang.OutOfMemoryError: Java heap space spark sql_com.fasterxml.jackson.core.util.bufferrecycler...
2024-01-23 01:37 阅读 阅读全文文章浏览阅读928次。简介: 本篇文章主要要点有: Scala模式匹配彻底详解 Scala类型系统彻底详解 Spark源码阅读及作业 1. Scala模式匹配彻底详解 Scala中的模式匹配类似于java中的switch case,但是switch case是对值进行匹......
2024-01-23 13:10 阅读 阅读全文文章浏览阅读839次。fs://master2host:9000/user/master2/share/lib/spark/py4j-0.9.jar,hdfs://master2host:9000/user/master2/share/lib/spark/avro-ipc-1.7.7-tests.jar,hdfs://master2host:9000/user/master2/share/lib/spark/quasi_oozie.service.sparkconfigurationservice.spark.configurations...
2024-01-24 05:19 阅读 阅读全文一、Flume 介绍Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单Flume最主要的作用就是实时读取服务器本地磁盘的数据,将数据写入到HDFS中1. 为什么选择 Flume......
2023-10-09 22:57 阅读 阅读全文文章浏览阅读958次。一 RDD概念1 RDD为什么会产生2 RDD概述21 什么是RDD22 RDD的属性3 13 RDD弹性4 RDD特点41 分区42 只读43 依赖44 缓存45 checkpoint二 RDD编程1 编程模型2 22 创建RDD一、 RDD概念1.1 RDD为什么会产生RDD是Spark的基......
2024-01-22 16:14 阅读 阅读全文文章浏览阅读176次。版权声明:本文为博主原创文章,未经博主允许不得转载。欢迎访问:https://blog.csdn.net/qq_21439395/article/details/83590992交流QQ: 824203453 在IDEA中编写WordCount程序 spark shell仅在测试和验证我们的程序时使用的较多,......
2024-01-24 07:43 阅读 阅读全文文章浏览阅读9.5k次,点赞9次,收藏80次。Scala 统计学生成绩题干学生的成绩清单格式如下所示,第一行为表头,各字段意思分别为学号、性别、课程名 1、课程名 2 等,后面每一行代表一个学生的信息,各字段之间用空白符隔开......
2024-01-23 01:13 阅读 阅读全文文章浏览阅读1.5k次。最近在做弄sparksql,在读取mysql数据的时候发现一个问题, 在数据库将字段定义成tinyint,并且长度为1的时候,读取到spark里面,被转换成Boolean类型的字段了.测试表定义CREATE TABLE `test1` ( `id` bigint(4) NOT NULL AUTO_INCREMEN......
2024-01-24 05:54 阅读 阅读全文文章浏览阅读244次。流处理基础Apache Spark一直支持流处理。在2012年,该项目合并了Spark Streaming及其DStream API,这是第一个能够使用例如map和reduce这样的高级函数进行流处理的API。现在,数以百计的组织在生产中使用DStreams来实现......
2024-01-24 07:52 阅读 阅读全文文章浏览阅读6.5k次,点赞2次,收藏7次。环境:idea spark2.2 hive1.1 maven3场景:本地运行Spark代码,连接Hive集群查询数据:本地设置了SPARK_HOME、SCALA_HOME将hive-site.xml复制到本地的%SPARK_HOME%/conf/路径下代码如下:def main(args: Array[String])......
2024-01-24 00:05 阅读 阅读全文