SPARK-艾客网

RDD（弹性分布式数据集）介绍---Spark的核心_弹性分布式通过checkpoint什么方式-CSDN博客

文章浏览阅读378次。Sparkspark和hadoop的区别：hadoop磁盘IO开销大，延迟高、表达能力有限（需要转换为MapReduce）、在前一个任务执行完成之前，其他任务都无法开始，map 和 reduce过程，任务之间的衔接。spark计算模式也属于MapReduce......

2024-01-22 14:49 评论 0 阅读

阅读全文

Spark Streaming项目实战之实时的分析处理用户对广告点击的行为数据-CSDN博客

文章浏览阅读1.9k次，点赞4次，收藏24次。使用Spark Streaming实时的分析处理用户对广告点击的行为数据1. 准备数据1.1 数据生成方式1.2 数据格式1.3 模拟数据生成及从Kafka中读取数据2. 需求一：每天每地区热门广告Top32.1 需求分析2.2 ......

2024-01-22 14:58 评论 0 阅读

阅读全文

大数据之SparkStreaming 完整使用 (第十一章)_spark.streaming.receiver.maxrate-CSDN博客

文章浏览阅读451次。数“spark.streaming.receiver.maxRate”的值来实现，此举虽然可以通过限制接收速率，来适配当前。到的数据都作为RDD存在，而DStream是由这些RDD所组成的序列(因此得名“离散化”)。为了更好的协调数据接收速率与......

2024-01-22 17:09 评论 0 阅读

阅读全文

Update：spark_rdd算子：第1节 RDD_定义_转换算子：深入RDD-CSDN博客

文章浏览阅读115次。一、二、案例：详见代码。针对案例提出的6个问题：假设要针对整个网站的历史数据进行处理, 量有 1T, 如何处理?放在集群中, 利用集群多台计算机来并行处理如何放在集群中运行?简单来讲, 并行计算就是同......

2024-01-24 05:01 评论 0 阅读

阅读全文

spark ---1 Shuffle_diskobjectwriter 带来的 writer handler 的缓存也非常消耗内存-CSDN博客

文章浏览阅读202次。1 Hash Shuffle V1相对于传统的 MapReduce，Spark 假定大多数情况下 Shuffle 的数据不需要排序，例如 Word Count，强制排序反而会降低性能。因此不在 Shuffle Read 时做 Merge Sort，如果需要合并的操作的话，则会使用聚合（......

2024-01-22 15:06 评论 0 阅读

阅读全文

scala案例练习-求各个城市的平均温度_spark编程计算各城市的平均气温实训-CSDN博客

文章浏览阅读4.7k次，点赞9次，收藏32次。案例练习求各个城市的平均温度//需求：求各个城市的平均温度val d1 = Array((&quot;beijing&quot;, 28.1), (&quot;shanghai&quot;, 28.7), (&quot;guangzhou&quot;, 32.0), (&quot;shenzhen&quot;, 33......

2024-01-23 20:46 评论 0 阅读

阅读全文

hive、spark_directed acyclic graph反映rdd之间的依赖关系-CSDN博客

文章浏览阅读1.7k次。7下列关于Storm设计思想,描述有误的是?（1.5分）0.0 分A、Topology里面的每个处理组件(Spout或Bolt)都包含处理逻辑, 而组件之间的连接则表示数据流动的方向B、Storm将Spouts和Bolts组成的网络抽象成TopologyC、Storm认为......

2024-01-23 23:08 评论 0 阅读

阅读全文

Scala和Spark大数据分析函数式编程、数据流和机器学习_flume消费kafka数据太慢资源-CSDN文库

资源浏览查阅126次。Scala和Spark大数据分析函数式编程、数据流和机器学习flume消费kafka数据太慢更多下载资源、学习资料请访问CSDN文库频道....

2024-01-22 22:42 评论 0 阅读

阅读全文

《深入理解SPARK：核心思想与源码分析》——SparkContext的初始化（仲篇）——SparkUI、环境变量及调度...-CSDN博客

文章浏览阅读245次。《深入理解Spark：核心思想与源码分析》一书前言的内容请看链接《深入理解SPARK：核心思想与源码分析》一书正式出版上市《深入理解Spark：核心思想与源码分析》一书第一章的内容请看链接《第1章环境准......

2024-01-23 23:23 评论 0 阅读

阅读全文

启动spark的几个警告_cannot resolve org.datanucleus:datanucleus-api-jdo-CSDN博客

文章浏览阅读832次。C:\Windows\System32>spark-shell20/04/25 14:33:58 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable20/04/25 14:34:00 WARN G..._cannot resolve org.datanucleus:datanucleus-api-jdo:3.2.6...

2024-01-24 00:05 评论 0 阅读

阅读全文