文章浏览阅读2.6k次,点赞6次,收藏10次。案例一:分析tomcat的访问日志,求访问量最高的两个网页 1、对每个jps的访问量求和 2、排序 3、取前两条记录 结果:ArrayBuffer((oracle.jsp,9), (hadoop.jsp,9))案例二:分析tomcat的访问日志,根据......
2024-01-23 01:13 阅读 阅读全文文章浏览阅读408次。2.4 Action2.4.1 reduce(func)案例1. 作用:通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。2. 需求:创建一个RDD,将所有元素聚合得到结果(1)创建一个RDD[Int]scala> val rdd1 = sc.makeRDD(1 to ......
2024-01-23 13:12 阅读 阅读全文文章浏览阅读140次。21 隐式转换作用:能够丰富现有类库的功能,对类的方法进行增强,常用作类型转换也就是把一个类型转赋予另一个类的功能;隐式转换应用场景隐式转换函数、隐式值、隐式参数、隐式对象(只能在静态对......
2024-01-23 22:27 阅读 阅读全文文章浏览阅读671次。错误:hadanotserializableresult:org.apache.kafka.clients.consumer.ConsumerRecord错误:hadanotserializableresult:org.apache.kafka.clients.consumer.ConsumerRecordConsumerRecord无法序列化可注册使用Kyro序列化 org.apache.spark.serializer.KryoSerializer Spark......
2024-01-21 12:50 阅读 阅读全文文章浏览阅读716次。一:问题现象 计划Flume+kafka+spark进行消费,在本地测试么有数据过来,然后打开kafka消费端查看,kafka正常,从生产端是可以写入数据的,但是在flume采集文件后消费端没有数据,flume启动也是正常的: flume ......
2024-01-23 05:06 阅读 阅读全文文章浏览阅读917次。spark streaming 结合kafka 精确消费一次将结果保存到hbase1. 环境scala 2.12.12jdk 1.8idea 2020.1maven 3.6.3spark 3.0.1kafka 0.10hadoop 3.2.1hbase 2.2.5 (另外一个明细数据幂等处理,保存到habse)redis 5.0pom<!-- 定义了一些常量 --> ......
2024-01-23 19:05 阅读 阅读全文文章浏览阅读653次。在local模式下 驱动程序driver就是执行了一个Spark Application的main函数和创建Spark Context的进程,它包含了这个application的全部代码。(在那台机器运行了应用的全部代码创建了sparkContext就是driver,以可以说是你提......
2024-01-24 07:38 阅读 阅读全文文章浏览阅读187次。1_利用scala的rdd分组求topn是大数据领域常见的需求,主要是根据数据的某一列进行分...
2024-01-21 11:40 阅读 阅读全文文章浏览阅读770次。RDD的依赖关系窄依赖 父RDD中每一个partition最多只被子RDD的一个partition所使用总结:窄依赖我们形象的比喻为独生子女宽依赖 子RDD的多个partition会依赖于父RDD同一个partition总结:宽依赖我们形象的比喻为超生L......
2024-01-24 07:33 阅读 阅读全文文章浏览阅读1.4k次。前言 每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.诊断内存的消耗在Spark......
2024-01-23 11:06 阅读 阅读全文