文章浏览阅读1.3w次,点赞14次,收藏143次。项目需求:使用Spark完成下列日志分析项目需求:1.日志数据清洗2.用户留存分析1.数据清洗读入日志文件并转化为RDD[Row]类型按照Tab切割数据过滤掉字段数量少于8个的对数据进行清洗按......
2024-01-22 22:05 阅读 阅读全文文章浏览阅读331次。package day14import org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{ Seconds, StreamingContext}object ..._使用 spark streaming,用 kafka 作为数据源,对你的数据进行......
2024-01-23 23:12 阅读 阅读全文文章浏览阅读4.2k次,点赞2次,收藏28次。计算订单分类成交金额需求在给定的订单数据,根据订单的分类ID进行聚合,然后按照订单分类名称,统计出某一天商品各个分类的成交金额数据样例{“cid”: 1, “money”: 600.0, “longitude......
2024-01-23 02:48 阅读 阅读全文文章浏览阅读2.2k次。广播变量广播变量通常是为了实现mapside join,可以将Driver端的数据广播到属于该application的Executor,然后通过Driver广播变量返回的引用,获取事先广播到Executor的数据广播变量是通过BT的方式广播的(TorrentBroad......
2024-01-23 02:48 阅读 阅读全文文章浏览阅读4.4k次,点赞7次,收藏27次。原因:在SparkSQL中当Job中产生Shuffle时,默认的分区数(spark.sql.shuffle.partitions )为200,在实际项目中要合理的设置。可以在构建SparkSession实例对象时进行设置。运行上述程序时,查看WEB UI......
2024-01-23 23:15 阅读 阅读全文文章浏览阅读462次。数据用户id,开始时间,结束时间,所用流量1,2020-02-18 14:20:30,2020-02-18 14:46:30,201,2020-02-18 14:47:20,2020-02-18 15:20:30,301,2020-02-18 15:37:23,2020-02-18 16:05:26,401,2020-02-18 16:06:27,2020-02-18 17:20:49,501,2020-02-18 17:21:50,2020-02-18 18:03:27,60......
2024-01-23 02:51 阅读 阅读全文文章浏览阅读2.6k次,点赞6次,收藏10次。案例一:分析tomcat的访问日志,求访问量最高的两个网页 1、对每个jps的访问量求和 2、排序 3、取前两条记录 结果:ArrayBuffer((oracle.jsp,9), (hadoop.jsp,9))案例二:分析tomcat的访问日志,根据......
2024-01-23 01:13 阅读 阅读全文文章浏览阅读2.6k次,点赞6次,收藏10次。案例一:分析tomcat的访问日志,求访问量最高的两个网页 1、对每个jps的访问量求和 2、排序 3、取前两条记录 结果:ArrayBuffer((oracle.jsp,9), (hadoop.jsp,9))案例二:分析tomcat的访问日志,根据......
2024-01-23 01:13 阅读 阅读全文