文章浏览阅读2k次。一、Spark基础知识二、Scala环境搭建1、部署本地SCALA(1)官网下载2.12.15版本链接:Scala 2.12.15 | The Scala Programming Language(2)配置环境变量(3)cmd 检查一下本地 Scala部署完成2、部署服务器Scala(1)复制下载链......
2024-01-22 15:00 阅读 阅读全文文章浏览阅读909次。摘要:目的是基于zk搭建高可用Spark计算框架;首先安装scala环境;然后,配置spark相关配置文件;最后启动zookeeper,hadoop, spark,查看各个节点的进程情况, 展示demo, 验证spark高可用是怎么一回事。前置linux集群......
2024-01-24 06:38 阅读 阅读全文文章浏览阅读4.8w次,点赞2次,收藏21次。随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化......
2024-01-23 23:54 阅读 阅读全文文章浏览阅读7.5k次,点赞6次,收藏29次。Hadoop测试:按照上一篇文章安装完Hadoop集群之后,启动hdfs文件系统及yarn资源管理器(也可通过start-dfs.sh和start-yarn.sh完成):start-all.sh之后通过jps查看是否成功:jps成功之后如下图:点......
2024-01-23 23:12 阅读 阅读全文文章浏览阅读930次。一、准备工作一、配置Standalone集群模式点击查看Standalone集群模式配置教程二、修改配置文件cd /export/server/spark/conf注释或删除MASTER_HOST内容:# SPARK_MASTER_HOST=node1增加以下配置:SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.re......
2024-01-24 06:12 阅读 阅读全文文章浏览阅读3.4k次。以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。Spark提供三个位置用来配置系统:Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置环境变量:可以通过每......
2024-01-23 23:54 阅读 阅读全文文章浏览阅读1.3k次。背景:java项目中存在excel这样的资源文件,处理方法是将excel通过hadoop fs -copyFromLocal方式上传到hdfs文件系统上。hdfs有两个namenode,所以访问路径需要设置成高可用的路径处理代码:声明spark环境 val sparkConf ......
2024-01-24 00:15 阅读 阅读全文文章浏览阅读1k次。Spark分布式集群的搭建详细图文步骤_spark分布式集群部署及ha配置...
2024-01-24 06:51 阅读 阅读全文文章浏览阅读1.7k次。查看spark任务日志记录,需要配置历史服务器,将日志记录保存1.在客户端…/spark/conf/spark-defaults.conf中配置:spark.eventLog.enabled truespark.eventLog.dir hdfs://mycluster/spark/logspark.history.fs.logDirecto......
2024-01-24 05:46 阅读 阅读全文文章浏览阅读944次。使用云服务器搭建hadoop集群,hadoop、yarn和spark配置文件设置,spark on yarn 环境搭建,python任务提交测试,spark-submit提交python任务测试,及其spark-submit提交参数详解_sparkonyarn安装配置...
2024-01-24 07:16 阅读 阅读全文