文章浏览阅读287次。0. 背景最近我在做流式实时分布式计算系统的架构设计,而正好又要参加CSDN博文大赛的决赛。本来想就写Spark源码分析的文章吧。但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量......
2024-01-22 23:12 阅读 阅读全文文章浏览阅读650次。文章目录前言executor参数spark.executor.coresspark.executor.memory/spark.yarn.executor.memoryOverheadspark.executor.instancesspark.dynamicAllocation.enabledDriver参数spark.driver.coresspark.driver.memory/spark.d..._该参数表示每个executor可利用的cpu核......
2024-01-23 07:38 阅读 阅读全文文章浏览阅读3.2w次,点赞6次,收藏7次。groupBy(function) function返回key,传入的RDD的各个元素根据这个key进行分组val a = sc.parallelize(1 to 9, 3)a.groupBy(x => { if (x % 2 == 0) "even" else "odd" }).collect//分成两组/*结果 Array((even,Ar......
2024-01-24 09:52 阅读 阅读全文一、介绍Local模式就是常用于本地开发测试,本地还分为local单线程和local-cluster多线程;二、本质启动一个JVM Process进程(一个进程里面有多个线程),执行任务Task三、原理该模式被称为**Local[N]**模式,是用单机的多个线程来模拟Spar......
2023-10-10 03:31 阅读 阅读全文Spark机器学习:核心技术与实践是由Alex Tellez,Michal Malohlava著作,机械工业出版社出版,本书采用理论与大量实例相结合的方式帮助开发人员掌握使用Spark进行分析和实现机器学习算法。通过这些示例和Spark在各种企业级系统中的......
2023-10-13 06:53 阅读 阅读全文文章浏览阅读760次。文章目录广播变量累加器Sparkshufflespark shuffle 演进的历史1、未经优化的HashShuffleManager2、优化后的HashShuffleManager3、SortShuffle4、sortshuffle的bypass运行机制5、Tungsten-Sort Based Shuffle在默认情况下,当 Spark 在集群的多......
2024-01-22 17:34 阅读 阅读全文文章浏览阅读398次。一、函数至简原则(1)return 可以省略,Scala 会使用函数体的最后一行代码作为返回值 def f1( s : String ): String = { s + " chris "}(2)如果函数体只有一行代码,可以省略花括号 def f2(s:String):String = s + &qu......
2024-01-23 05:10 阅读 阅读全文文章浏览阅读1k次。这是借鉴别人的整理而来,本人抱着知识共享的态度,希望大家转载说明出处 谢谢大家。_使用spark shell命令,完成以下编程任务,写出完整的操作命令。 现有企业产品二月份...
2024-01-24 00:36 阅读 阅读全文文章浏览阅读3.4k次,点赞3次,收藏7次。 不多说,直接上干货! 问题详情 电脑8G,目前搭建3节点的spark集群,采用YARN模式。 master分配2G,slave1分配1G,slave2分配1G。(在安装虚拟机时) export SPARK_WORKER_MERMORY=1g ......
2024-01-24 09:51 阅读 阅读全文文章浏览阅读925次。一步步学spark之一scala类的定义(属性和方法)2.0 scala类的定义(属性和方法) 定义一个类 声明属性 在类中定义一个无参方法 并在main 方法中调用私有成员定义_scala中的派如何定义...
2024-01-23 03:36 阅读 阅读全文