SPARK-艾客网

spark学习-Application、Driver和Worker向Master注册工作流程_sparksubmit driver appmaster worker-CSDN博客

文章浏览阅读1.8k次。Application向Master注册工作流程：1.Driver启动后，执行Application注册，SparkContext初始化时，SparkDeploySchedulerBackend会通过AppClient内部线程ClientActor发送RegisterApplication到Master进行注册。2.将Application信息放入内存缓存......

2024-01-24 07:40 评论 0 阅读

阅读全文

Spark Shuffle（二）Executor、Driver之间Shuffle结果消息传递、追踪_driver executor shuffle-CSDN博客

文章浏览阅读441次。1. 前言前文中讲了shuffleMapTask如何运行，输出Shuffle结果到Shuffle_shuffleId_mapId_0.data数据文件中，每个executor需要向Driver汇报当前节点的Shuffle结果状态，Driver保存结果信息进行下个Task的调度。2. StatusUpdate消息当Ex......

2024-01-25 06:42 评论 0 阅读

阅读全文

spark-jobs-rest-client:流利的客户端，可与SparkStandaloneMode的RestAPI进行交互，以提交，取消和监视作业状态资源-CSDN文库

资源浏览查阅97次。自述文件该项目提供了Fluent实用程序Http客户端，用于与Spark发行版捆绑在一起的Spar更多下载资源、学习资料请访问CSDN文库频道....

2024-01-24 04:13 评论 0 阅读

阅读全文

Spark机器学习的介绍_多元分类希望预测的目标有多个选项好像在做选择题。对吗-CSDN博客

文章浏览阅读519次。一、机器学习架构（1）机器学习通过算法，使用历史数据进行训练，训练完成后会产生模型，未来当有新的数据提供时，我们可以用训练产生的模型进行预测，（2）训练数据是由Features、Label组成 Features：数......

2024-01-24 00:38 评论 0 阅读

阅读全文

2.大数据技术之SparkCore_第一章:RDD概述_大数据技术之spark 第1章-CSDN博客

文章浏览阅读109次。第1章 RDD概述1.1 什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.2 RDD......

2024-01-23 13:12 评论 0 阅读

阅读全文

墨卿风竹_spark,Doris之Rollup的注意事项和常见问题,doris之Broker Load的配置和注意事项-CSDN博客

墨卿风竹擅长spark,Doris之Rollup的注意事项和常见问题,doris之Broker Load的配置和注意事项,等方面的知识...

2023-10-11 21:54 评论 0 阅读

阅读全文

scala-44：Scala中View Bounds代码实战及其在Spark中的应_scala view bounds-CSDN博客

文章浏览阅读475次。内容：1、View Bounds的代码实战2、View bounds在Spark中的广泛使用class Pair_NotPerfect[T <% Comparable[T]](val first : T,val second : T){ def bigger = if(first.compareTo(second) > 0)first else second }class P_scala view bounds...

2024-01-22 21:33 评论 0 阅读

阅读全文

Update：spark_rdd算子：第2节 RDD_action算子_分区_缓存：缓存、Checkpoint-CSDN博客

文章浏览阅读142次。4. 缓存概要缓存的意义缓存相关的 API缓存级别以及最佳实践4.1. 缓存的意义使用缓存的原因 - 多次使用 RDD需求: 在日志文件中找到访问次数最少的 IP 和访问次数最多的 IPval conf = new SparkConf().setMaster("local[6......

2024-01-24 05:01 评论 0 阅读

阅读全文

Spark代码练习——CDN日志，SparkCore实现_mozilla/4.0+(compatible;+msie+6.0;+windows+nt+5.1)-CSDN博客

文章浏览阅读455次。一、CDN日志练习：日志格式为:IP 命中率(Hit/Miss) 响应时间请求时间请求方法请求URL 请求协议状态吗响应大小 referer 用户代理100.79.121.48 HIT 33 [15/Feb/2017:00:00:46 +0800] "GET http......

2024-01-22 22:32 评论 0 阅读

阅读全文

Spark作业性能调优——Shuffle原理及参数调优_shuflle的参数调优做过吗?-CSDN博客

文章浏览阅读261次。一、调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但......

2024-01-23 06:38 评论 0 阅读

阅读全文