目录基本概念Yarn模式搭建1. 解压缩文件2.修改配置文件启动集群测试Spark中examples案例1. 提交应用2.Web 页面查看日志配置历史服务器1.具体步骤2.重新提交应用3.Web 页面查看日志基本概念独立部署(Standalone)模式由Spark 自身提供计......
2023-10-10 03:37 阅读 阅读全文文章浏览阅读5.8w次,点赞17次,收藏146次。不宜妄自菲薄,引喻失义。0、前提0.1 配置可参考: windows上配置 Python+spark开发环境0.2 有关spark说明: spark 不兼容 Python3.6 安装注意版本 可下载: anaconda4.2一、实例分析1.1 数据 student.tx......
2024-01-24 07:58 阅读 阅读全文文章浏览阅读2.7k次,点赞4次,收藏11次。目录基本概念Yarn模式搭建1. 解压缩文件2.修改配置文件启动集群测试Spark中examples案例1. 提交应用2.Web 页面查看日志配置历史服务器1.具体步骤2.重新提交应用3.Web 页面查看日志基本概念独......
2024-01-24 07:16 阅读 阅读全文文章浏览阅读45次。1_name=fields[1]...
2024-01-21 11:40 阅读 阅读全文文章浏览阅读141次。uid,start_time,end_time,flow1,2020-02-18 14:20:30,2020-02-18 14:46:30,201,2020-02-18 14:47:20,2020-02-18 15:20:30,301,2020-02-18 15:37:23,2020-02-18 16:05:26,401,2020-02-18 16:06:27,2020-02-18 17:20:49,501,2020-02-18 17:21:50,2020-02-18 18:03:27,602,_spark sql 每分钟统......
2024-01-22 19:32 阅读 阅读全文文章浏览阅读447次。前面讲到Hbase的时候可以通过Java API的方式操作Hbase数据库,由于Java和Scala可以互相调用,本节使用Scala语言通过Spark平台来实现分布式操作Hbase数据库,并且打包部署到Spark集群上面。这样我们对Spark+Scala项目......
2024-01-23 20:01 阅读 阅读全文文章目录基本概念Standalone模式搭建1.解压缩文件2.修改配置文件启动集群1. 执行脚本命令2. 查看服务运行的进程3. 查看 UI 界面测试Spark中examples案例1. 提交应用2. 结果截图基本概念Spark的local 本地模式毕竟只是用来进行练习演示的......
2023-10-10 03:33 阅读 阅读全文文章浏览阅读1.2k次。1 读取Sequence File读取文本格式我们可以使用text files,那么读取Sequence File该怎么办呢? 当然官网给我们提供了另外一种方式,sequenceFile[K, V] 方法,其中k和v是文件中的键值和值类型。他们实现了Writable接口。......
2024-01-24 08:03 阅读 阅读全文文章浏览阅读1.3w次,点赞14次,收藏143次。项目需求:使用Spark完成下列日志分析项目需求:1.日志数据清洗2.用户留存分析1.数据清洗读入日志文件并转化为RDD[Row]类型按照Tab切割数据过滤掉字段数量少于8个的对数据进行清洗按......
2024-01-22 22:05 阅读 阅读全文文章浏览阅读2.2k次。广播变量广播变量通常是为了实现mapside join,可以将Driver端的数据广播到属于该application的Executor,然后通过Driver广播变量返回的引用,获取事先广播到Executor的数据广播变量是通过BT的方式广播的(TorrentBroad......
2024-01-23 02:48 阅读 阅读全文