网友收藏 通过大量的案例说明常用transformation函数的使用...
2024-01-24 08:33 阅读
阅读全文 网友收藏 文章浏览阅读451次。cache、persist将数据缓存到内存,第一次触发Action,才会将数据放入内存,以后在触发Action,可以复用前面内存中缓存的数据,可以提升技术效率cache和persist的使用场景:一个application多次触发Action,为了复用......
2024-01-23 02:50 阅读
阅读全文 网友收藏 文章浏览阅读2k次。Spark集群安装部署Spark集群有多种部署方式,比较常见的有Standalone模式和ON YARN模式Standalone模式就是说部署一套独立的Spark集群,后期开发的Spark任务就在这个独立的Spark集 群中执行ON YARN模式是说使用现有的Hado......
2024-01-24 06:29 阅读
阅读全文 网友收藏 文章浏览阅读303次。Yarn 模式启动Spark准备运行环境1. 用下面的命令下载spark和hadoop包至mac电脑或虚拟机.wget https://mirrors.estointernet.in/apache/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgzwget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/hadoop-2.......
2024-01-24 07:43 阅读
阅读全文 网友收藏 文章浏览阅读1.1k次。部署Spark的历史服务器—Spark History Server一、配置spark历史服务器此操作是建立在“部署基于Standalone模式部署Spark集群”之上的,也是我的上一篇博客https://editor.csdn.net/md/?articleId=1090158941.1、进入Spark安装目录......
2024-01-24 06:02 阅读
阅读全文 网友收藏 文章浏览阅读1.6k次。1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,......
2024-01-24 06:48 阅读
阅读全文 网友收藏 文章浏览阅读127次。环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6一、搭建集群组建方案:master:PCS101,slave:PCS102、PCS103搭建方式一:Standalone......
2024-01-24 06:51 阅读
阅读全文 网友收藏 橙色旋涡擅长kafka,Spark入门之Scala,Spark一之基础,等方面的知识,橙色旋涡关注hive,spark,hadoop,etl领域....
2023-11-12 05:28 阅读
阅读全文 网友收藏 文章浏览阅读118次。_spark 原子变量checkpoint...
2024-01-21 12:35 阅读
阅读全文 网友收藏 文章浏览阅读70次。HADOOP及SPARK安装步骤及问题解决_hadoop和spark安装...
2024-01-22 21:47 阅读
阅读全文