文章浏览阅读1.8k次。Application向Master注册工作流程:1.Driver启动后,执行Application注册,SparkContext初始化时,SparkDeploySchedulerBackend会通过AppClient内部线程ClientActor发送RegisterApplication到Master进行注册。2.将Application信息放入内存缓存......
2024-01-24 07:40 阅读 阅读全文文章浏览阅读441次。1. 前言前文中讲了shuffleMapTask如何运行,输出Shuffle结果到Shuffle_shuffleId_mapId_0.data数据文件中,每个executor需要向Driver汇报当前节点的Shuffle结果状态,Driver保存结果信息进行下个Task的调度。2. StatusUpdate消息当Ex......
2024-01-25 06:42 阅读 阅读全文资源浏览查阅97次。自述文件该项目提供了Fluent实用程序Http客户端,用于与Spark发行版捆绑在一起的Spar更多下载资源、学习资料请访问CSDN文库频道....
2024-01-24 04:13 阅读 阅读全文文章浏览阅读519次。一、机器学习架构(1)机器学习通过算法,使用历史数据进行训练,训练完成后会产生模型,未来当有新的数据提供时,我们可以用训练产生的模型进行预测,(2)训练数据是由Features、Label组成 Features:数......
2024-01-24 00:38 阅读 阅读全文文章浏览阅读109次。第1章 RDD概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.2 RDD......
2024-01-23 13:12 阅读 阅读全文墨卿风竹擅长spark,Doris之Rollup的注意事项和常见问题,doris之Broker Load的配置和注意事项,等方面的知识...
2023-10-11 21:54 阅读 阅读全文文章浏览阅读475次。内容:1、View Bounds的代码实战2、View bounds在Spark中的广泛使用class Pair_NotPerfect[T <% Comparable[T]](val first : T,val second : T){ def bigger = if(first.compareTo(second) > 0)first else second }class P_scala view bounds...
2024-01-22 21:33 阅读 阅读全文文章浏览阅读142次。4. 缓存概要缓存的意义缓存相关的 API缓存级别以及最佳实践4.1. 缓存的意义使用缓存的原因 - 多次使用 RDD需求: 在日志文件中找到访问次数最少的 IP 和访问次数最多的 IPval conf = new SparkConf().setMaster("local[6......
2024-01-24 05:01 阅读 阅读全文文章浏览阅读455次。一、CDN日志练习:日志格式为:IP 命中率(Hit/Miss) 响应时间 请求时间 请求方法 请求URL 请求协议 状态吗 响应大小 referer 用户代理100.79.121.48 HIT 33 [15/Feb/2017:00:00:46 +0800] "GET http......
2024-01-22 22:32 阅读 阅读全文文章浏览阅读261次。一、调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但......
2024-01-23 06:38 阅读 阅读全文