SPARK-艾客网

在集群上运行python编写的spark应用程序（过程记录）_"setting default log level to \"warn\". to adjust -CSDN博客

启动hadooproot@master:/usr/local/hadoop-2.7.5/sbin#./start-all.sh This script is Deprecated. Instead use start-dfs.shand start-yarn.shStarting namenodes on [master]master: starting namenode, logging to/..._"setting default log level to \"warn\". to adjust logging level use sc.setlog......

2023-10-10 03:34 评论 0 阅读

阅读全文

如何使用Spark实现TopN的获取（描述思路或使用伪代码)_使用 groupbykey()方法将转换结构后的数据根据省份进行分组,转化成“(省份id,-CSDN博客

文章浏览阅读435次。方法1：a. 按照 key 对数据进行聚合（groupByKey）b. 将 value 转换为数组，利用 scala 的 sortBy 或者 sortWith 进行排序（mapValues）注意：当数据量太大时，会导致OOM。val rddData1 = sparkSession.parallelize(Array(("sivela",......

2024-01-23 13:57 评论 0 阅读

阅读全文

Spark on YARN cluster & client 模式作业运行全过程分析_图一:yarn client (driver在am外,适用于测试环境,便于交互调试)-CSDN博客

文章浏览阅读6.8k次，点赞4次，收藏22次。原文链接：https://www.iteblog.com/archives/1189.html，致谢下面是分析Spark on YARN的Cluster模式，从用户提交作业到作业运行结束整个运行期间的过程分析。客户端进行操作　　1、根据yarnConf来初始......

2024-01-24 04:33 评论 0 阅读

阅读全文

使用Spark Streaming处理Kafka数据流_应用kafka+sparkstreaming完成实时数据的计算,并将计算结果在控制台输出或保存到m-CSDN博客

文章浏览阅读5.7k次。Kafka作为优秀的日志采集系统，可以作为Spark Streaming的高级数据源，本文主要介绍如何使用Spark Streaming实时处理Kafka传递过来的数据流。1 系统软件本文实验基于的各软件版本如下：Java 1.8.0_191Scala 2.11hadoop-3.0.......

2024-01-23 23:12 评论 0 阅读

阅读全文

大数据张老师_手把手搭建企业级大数据搜索引擎用户行为分析系统,Spark3.X 零基础入门实战,少年小鱼的魔法之旅——神奇的Python-CSDN博客

大数据张老师擅长手把手搭建企业级大数据搜索引擎用户行为分析系统,Spark3.X 零基础入门实战,少年小鱼的魔法之旅——神奇的Python,等方面的知识,大数据张老师关注hive,storm,spark,hadoop,etl领域....

2023-10-12 13:20 评论 0 阅读

阅读全文

第42讲：Scala中泛型类、泛型函数、泛型在Spark中的广泛应用学习笔记_class triple[f,s,t] triple是一个类-CSDN博客

第42讲：Scala中泛型类、泛型函数、泛型在Spark中的广泛应用第42讲是进阶阶段第一讲1-41是入门经典，学习了scala的基本类型，面向对象编程，函数式编程和集合的操作，模式匹配。只有从第42讲开始才会充分体会到scala的丰富和......

2023-10-10 03:29 评论 0 阅读

阅读全文

第67讲：Scala并发编程匿名Actor、消息传递、偏函数实战解析及其在Spark源码中的应用解析学习笔记_scala 匿名actor-CSDN博客

文章浏览阅读745次。需要临时Actor时倾向于使用匿名Actorreceive是偏函数，使用case匹配，如果没有匹配时会报错。偏函数，有apply isDefinedAt方法（判断消息是否已被定义为要处理的消息）receive中如果没有case，不会报错，只会忽略......

2024-01-23 18:27 评论 0 阅读

阅读全文

Spark GraphX下强连通子图和社团发现算法在1T TPC-DS数据集下执行方法、优化和性能估算_tpcds 1t 数据-CSDN博客

文章浏览阅读3.4k次。概述：下面内容说的是在TPC-DS 1T数据集上用web_sales表ws_bill_customer_sk, ws_ship_customer_sk作为起始点和结束点，以ws_quantity为权重跑Spark GraphX（2.0.0以上版本）程序的正确姿势。用下面程序跑可以避免Spark GraphX在大......

2024-01-25 06:44 评论 0 阅读

阅读全文

大数据：Spark案例：根据日志获取最大访问网页_sparksql使用sparksql用户访问量最大的网页是哪个,访问过该网页的用户id有哪些(去-CSDN博客

文章浏览阅读445次。目标需求：根据网站访问日志的到访问量最高的页面数据格式：import org.apache.spark.{SparkConf, SparkContext}//需求：根据网站访问日志的到访问量最高的页面object MyWebLogCount { def main(args: Array[String]): Unit = { //开......

2024-01-23 11:20 评论 0 阅读

阅读全文

大数据之Spark 运行架构概述完整使用(第四章)_这个提交过程基本相同,但是又有细微的区别,我们这里不进行详细的比较,但是因为国-CSDN博客

文章浏览阅读496次。大数据之Spark 运行架构概述一、运行架构二、核心组件1、Driver2、Executor3、Master & Worker4、ApplicationMaster三、核心概念1、Executor 与 Core2、并行度（Parallelism）3、有向无环图（DAG）四、提交流程1、Yarn Client 模......

2024-01-22 17:09 评论 0 阅读

阅读全文