SPARK-艾客网

在spark中采用sc.hadoopConfiguration进行数据传输java.lang.IllegalArgumentException: Can not create a Path from-CSDN博客

文章浏览阅读719次。在spark中采用sc.hadoopConfiguration进行数据传输java.lang.IllegalArgumentException: Can not create a Path from a null stringscala 2.11spark 2.20这是spark自身一些bughttps://issues.apache.org/jira/browse/SPARK-21549如何解决：spark2.2源码def rddWriteToHb......

2024-01-22 22:01 评论 0 阅读

阅读全文

大数据5_01_flume概述与安装部署_1 spark streaming + flume 1.安装 flume flume 是 cloud-CSDN博客

1 Flume概述Flume是一个Cloudera提供的分布式、高可用、高可靠的海量日志采集、聚合、传输的系统。Flume的主要作用是：实时读取服务器本地磁盘的数据，将数据写入到HDFS。1.1 Flume基本架构①Agentagent是一个jvm进程，以事件的形式将......

2023-10-11 20:59 评论 0 阅读

阅读全文

Spark---Shuffle调优之调节map端内存缓冲与reduce端内存占比_map task缓冲区所占内存大小-CSDN博客

文章浏览阅读2k次。1、map端内存缓冲，reduce端内存占比概述map端内存缓冲，reduce端内存占比；很多资料、网上视频，都会说，这两个参数，是调节shuffle性能的不二选择，很有效果的样子，实际上，不是这样的。以实际的生产经......

2024-01-25 06:42 评论 0 阅读

阅读全文

CDH集群使用spark作为hive查询引擎（实时查询）_hive不擅长实时交互, 那数据仓库中的数据如何让用户实时查询-CSDN博客

文章浏览阅读1.5k次。Hive我们用来搭建数仓，对于大量数据以及离线数仓，可以满足，但是他不能满足实时查询的情况，如果这次客户来了个需求，不在我们统计分析的指标内。那你单独写SQL，然后通过mr底层，就不能立刻出结......

2024-01-24 05:09 评论 0 阅读

阅读全文

智慧出行-当我们想使spark集成kafka的时候,需要创建一个kafkaParams,这个map集合一般使用IDEA的args传参,文章将会演示,实现步骤-CSDN博客

文章浏览阅读478次。package com.cartravel.programAppimport org.codehaus.jackson.map.deser.std.StringDeserializerobject StreamApp { def main(args: Array[String]): Unit = { //传入5个参数,如果不足5个,直接打印异常,退出 if (args.length<5){ System.err.println("......

2024-01-21 08:22 评论 0 阅读

阅读全文

Spark Core之什么是RDD_sparkcore中的rdd是一种弹性、分布式、可缓存的数据结构对吗-CSDN博客

文章浏览阅读190次。目录一、RDD概念二、RDD做了什么三、RDD一、RDD概念RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表⼀个不可变、可分区、⾥⾯的元素可并⾏计算的集合。RDD具有数据......

2024-01-21 12:50 评论 0 阅读

阅读全文

利用R语言实现spark大数据分析与可视化_大数据实战淘宝数据分析实现可视化通过r语言-CSDN博客

文章浏览阅读6.3k次，点赞5次，收藏13次。系统概述在日常业务分析中， R是非常常用的分析工具，而当数据量较大时，用R语言需要需用更多的时间来完成训练模型，spark作为大规模数据计算框架，采用内存计算，可以短时间内完......

2024-01-23 07:28 评论 0 阅读

阅读全文

python及Anaconda3安装以及Jupyter和pyspark集成_ubuntu中anaconda3和spark2.3.0怎么集成-CSDN博客

文章浏览阅读689次。一.准备安装包[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sS3GfI3u-1597061759308)(E:%5Ctypora%5Cclip_image002.jpg)]centos7中安装python3参考博客：https://www.cnblogs.com/xiujin/p/11477419.html1.安装相......

2024-01-22 15:08 评论 0 阅读

阅读全文

structured_data_processing_spark_sql:使用SparkSQL会话处理结构化数据的代码和设置信息资源-CSDN文库

资源浏览查阅112次。structured_data_processing_spark_sql:使用SparkSQL会话处理结构化数据的代码和设置信息,此存储库包含使用SparkSQL会话进行结构化数据分析的示例代码和示例数据。按照以下步骤克隆代码并设置您的机器。先决条件JavaMa......

2024-01-24 08:19 评论 0 阅读

阅读全文

【Scala】面向对象编程_"for elem <- list 6,9,0.618, \"spark\", \"hadoop\"-CSDN博客

文章浏览阅读586次。面向对象编程类对象继承特质模式匹配包类类的定义class Counter{ 定义类的字段和方法}定义字段：使用关键字val或者var定义方法:def 方法名(参数列表):返回结果类型={方法体} def increment(step: Int): Unit = { value +=......

2024-01-23 01:11 评论 0 阅读

阅读全文