文章浏览阅读411次。Spark执行流程提交任务spark-submit --master spark://node-1.51doit.cn:7070 --executor-memory 1g --total-executor-cores 4 --class cn.51doit.spark.WordCount /root/wc.jar hdfs://node-1.51doit.cn:9000/wc hdfs://node-1.51doit.cn:9000/out0spark任务执行模式Client......
2024-01-23 02:50 阅读 阅读全文文章浏览阅读5.1k次。1. 并行度理解2. 设置Application并行度_spark并行度...
2024-01-23 15:28 阅读 阅读全文一 铭擅长spark,源码分析-深入浅出Spark原理,大数据处理,等方面的知识,一 铭关注hive,storm,spark,hadoop,etl领域....
2023-10-11 14:49 阅读 阅读全文资源浏览查阅14次。目录序前言第1章Sprk简介11Spark的技术背景12Spk的优点13Spark架更多下载资源、学习资料请访问CSDN文库频道....
2024-01-23 20:29 阅读 阅读全文文章浏览阅读278次。专题介绍2009 年,Spark 诞生于加州大学伯克利分校的 AMP 实验室(the Algorithms, Machines and People lab),并于 2010 年开源。2013 年,Spark 捐献给阿帕奇软件基金会(Apache Software Foundation),并于 2014 年成为 Apache 顶级项目......
2024-01-24 09:54 阅读 阅读全文文章浏览阅读5.3k次,点赞6次,收藏8次。在上篇博文中,我们讲到了如何启动Master和Worker,还讲到了如何回收资源。但是,我们没有将AppClient是如何启动的,其实它们的启动也涉及到了资源是如何调度的。这篇博文,我们就来讲......
2024-01-24 09:27 阅读 阅读全文文章浏览阅读224次。概述 RDD(Resilient Distributed Dataset,弹性分布式数据集),是spark最基本的抽象数据类型。用来表示一个不可变的,多分区的,可以并行操作的元素集合。 其中,PairRDDFunctions包含的算子只能被键值对RDD调用......
2024-01-23 13:10 阅读 阅读全文文章浏览阅读2.1w次,点赞19次,收藏84次。RDDRDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念,自然也是理解Apache Spark 工作原理的最佳入口之一。RDD的特点: 1. 是一个分区的只读记录的集合; 2. 一个具有......
2024-01-24 07:58 阅读 阅读全文文章浏览阅读2k次。第五、第六、第七篇博文,我们讲解了Standalone模式集群是如何启动的,一个App起来了后,集群是如何分配资源,Worker启动Executor的,Task来是如何执行它,执行得到的结果如何处理,以及app退出后,分配了的资......
2024-01-24 09:27 阅读 阅读全文文章浏览阅读586次。Scala深入浅出进阶经典第66讲:Scala并发编程实战初体验及其在Spark源码中的应用解析...
2024-01-23 18:27 阅读 阅读全文