网友收藏 文章浏览阅读2.2k次,点赞3次,收藏2次。为什么要配置历史服务器DriverProgram:客户端;提交一个应用程序(application)以后,再提交一次,就无法查看之前的提交信息了;使用历史服务器就可以具体配置过程如下:现有客户机(cl......
2024-01-24 05:46 阅读
阅读全文 网友收藏 文章浏览阅读251次。所谓的高可用是因为当前集群中的Master节点只有一个,所以会存在单点故障问题。所以为了解决单点故障问题,需要在集群中配置多个Master节点,一旦处于活动状态的Master发生故障时,由备用Master提供服务,......
2024-01-24 05:58 阅读
阅读全文 网友收藏 文章浏览阅读2.8k次。在我们学习时更多的是用伪分布式环境来进行操作,以下就是伪分布式Hadoop+Spark安装与配置centos:7.4jdk:1.8hadoop:2.7.2scala:2.12.13spark:3.0.11、配置虚拟机下载centos-7,安装虚拟机1、配置静态ipvi /etc/sysconfig/ne......
2024-01-22 21:47 阅读
阅读全文 网友收藏 文章浏览阅读2.4k次。Spark3.1.2 on k8s配置日志存储路径:spark-defaults.conf使用的Hadoop版本是2.7.3 HDFS端口号9000192.168.x.x是Hadoop的namenode节点IP地址18080是默认的历史日志的端口号spark.yarn.historyServer.address=192.168.x.x:18080spark.history.ui.port=1808......
2024-01-24 09:48 阅读
阅读全文 网友收藏 文章浏览阅读4.9k次。Kafka topic及partition设计 1、对于银行应用日志,一个系统建一个topic,每台主机对应一个partition,规则为,flume采集时,同一个应用,数据送到同一个topic,一个主机,送一个partition,这样做是为了同一个日......
2024-01-23 20:37 阅读
阅读全文 网友收藏 文章浏览阅读387次。安装ZooKeeper1、将zookeeper-3.4.5-cdh5.3.6.tar.gz使用WinSCP拷贝到sparkproject1的/usr/local目录下。2、对zookeeper-3.4.5-cdh5.3.6.tar.gz进行解压缩:tar -zxvf zookeeper-3.4.5-cdh5.3.6.tar.gz。3、对zookeeper目录进行重命名:mv zooke..._0_10_spar......
2024-01-24 06:54 阅读
阅读全文 网友收藏 文章浏览阅读2.3k次。Spark是Hadoop MapReduce的通用并行框架,不同于MapReduce的是Job 中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法;_hadoop 2.5.0 可......
2024-01-24 06:19 阅读
阅读全文 网友收藏 文章浏览阅读699次。大数据第一阶段配置:软件版本:配置环境变量:我环境变量放在自定义文件中/etc/profile.d/my_env_sh中,配置有jdk、hadoop、spark、scala、zookeeper、hadoop配置:我的hadoop版本是3.1.4在目录/opt/module/hadoop-3.1.4/etc/hadoop......
2024-01-24 06:54 阅读
阅读全文 网友收藏 文章浏览阅读111次。转载请务必注明原创地址为:https://dongkelun.com/2018/04/16/sparkOnYarnConf/前言YARN 是在Hadoop 2.0 中引入的集群管理器,它可以让多种数据处理框架运行在一个共享的资源池上,并且通常安装在与Hadoop 文件系统(简称......
2024-01-24 05:19 阅读
阅读全文 网友收藏 文章浏览阅读526次。spark sql 能够通过thriftserver 访问hive数据,默认spark编译的版本是不支持访问hive,因为hive依赖比较多,因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译,将hive,thriftserver打包进去才能够访......
2024-01-24 05:31 阅读
阅读全文