Standalone模式概述构建一个由Master+Slave构成的Spark集群,Spark运行在集群中安装使用进入spark安装目录下的conf文件夹[liujh@hadoop102 module]$ cd spark/conf/修改配置文件名称[liujh@hadoop102 conf]$ mv slaves.template slaves[liujh@hadoo..._spark的stand...
2023-10-10 03:33 阅读 阅读全文文章浏览阅读2k次。本文主要记录我使用Spark以来遇到的一些典型问题及其解决办法,希望对遇到同样问题的同学们有所帮助。1. Spark环境或配置相关Q: Spark客户端配置文件spark-defaults.conf中,spark.executor.memory和spark.cores.max应该如何......
2023-11-11 19:00 阅读 阅读全文文章浏览阅读2.9k次。concat、concat_ws函数的使用_spark concat_ws...
2024-01-22 15:48 阅读 阅读全文文章浏览阅读308次。SparkSQL编程——DataSet(3)一、DataSet一、DataSettodo_spark dataset where 等于固定值...
2024-01-22 22:51 阅读 阅读全文文章浏览阅读403次。Spark概述什么是Spark回顾:Hadoop主要解决,海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Hadoop与Spark历史Hadoop的Yarn框架比Spark框架诞生的晚,所以S......
2024-01-23 22:49 阅读 阅读全文文章浏览阅读1k次。复制spark.default.conf.template到spark.default.conf将以下内容添加到spark.default.conf中spark.eventLog.enabled truespark.eventLog.dir hdfs://namenode:8021/directory修改spark.env.shexport..._spark.history.fs.logdirectory...
2024-01-24 05:47 阅读 阅读全文文章浏览阅读205次。Hadoop存在缺陷:基于磁盘,无论是MapReduce还是YARN都是将数据从磁盘中加载出来,经过DAG,然后重新写回到磁盘中计算过程的中间数据又需要写入到HDFS的临时文件这些都使得Hadoop在大数据运算上表现太“慢”......
2024-01-24 07:45 阅读 阅读全文文章浏览阅读2.5k次,点赞3次,收藏20次。文章目录1. Spark 概述1.1 什么是 Spark1.2 Spark 内置模块1.3 Spark 特点1.4 Spark 的重要角色1.4.1 Driver(驱动器)1.4.2 Executor(执行器)1.5 Spark 官网2. Spark 运行模式2.1 Local 模式2.1.1 概述2.1.2 安装......
2024-01-24 08:33 阅读 阅读全文文章浏览阅读190次。一、启动Kafka 我们之前已经安装过Kafka,现在远程至三台服务器(node1、node2、node3),在每一台服务器上执行下面命令,启动Zookeeper。cd /home/kafka_2.10-0.8.2.1zkServer.sh start 然后按远程至每一台服务器,执行......
2024-01-23 17:55 阅读 阅读全文文章浏览阅读9.8k次,点赞4次,收藏18次。错误:scala> ./spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ../examples/jars/spark-examples_2.12-3.10.1.jar 10scala> spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ../examples/jars/s......
2024-01-23 22:43 阅读 阅读全文