文章浏览阅读510次。Spark 是一种通用的大数据计算框架, 正如传统大数据技术Hadoop的MapReduce、Hive引擎, 以及Storm流式实时计算引擎等。_如果需要进行快速的失败恢复,那么就选择带后缀为_2的策略,进行数据的备份,这样在...
2024-01-23 13:29 阅读 阅读全文文章浏览阅读380次。文章目录• 1 histogram• 2 mean• 3 variance• 4 stdev• 5 sampleStdev• 6 sampleVariance• 7 countByValue• 8 top• 9 takeOrdered• 10 take• 11 first• 12 collectAsM..._y = x.histogram([0,0.5,1,1.5,2,2.5,3,3.5])...
2024-01-24 09:54 阅读 阅读全文文章浏览阅读234次。文章目录RDD 的分布式共享变量什么是闭包分发闭包累加器广播变量RDD 的分布式共享变量目标1,理解闭包以及 Spark 分布式运行代码的根本原理2,理解累加变量的使用场景3,理解广播的使用场景什么是闭包闭......
2024-01-23 23:08 阅读 阅读全文文章浏览阅读272次。1.RDD 概述1.1 什么是 RDD ?RDD(Resilient Distributed Dataset) 叫着 弹性分布式数据集 ,是Spark 中最基本的抽象,它代表一个不可变、可分区、里面元素可以并行计算的集合。RDD 具有数据流模型特点:自动容错、位置感......
2024-01-24 08:01 阅读 阅读全文文章浏览阅读660次。本文主要介绍RDD、DataFrame和DataSet这三者到底有什么区别,主要介绍以下几个方面:分别出现在spark的哪些版本?各自的优缺点是什么?应该如何选择使用哪个类别?分别出现在spark的哪些版本?RDD是spark一开......
2024-01-23 22:20 阅读 阅读全文文章浏览阅读459次。YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。这里的应用程序是指传统的MapReduce作......
2024-01-24 04:52 阅读 阅读全文文章浏览阅读544次。bin/spark-sql --jars hudi-spark3-bundle_2.12-0.9.0.jar \--packages org.apache.spark:spark-avro_2.12:3.1.2 \--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExt_org.apache.spark.sq......
2024-01-23 03:07 阅读 阅读全文文章浏览阅读1.4k次。本节讨论Spark Standalone Mode 模式下的日志配置及作用运行过程中的历史文件的清理,避免线上环境的不合理配置导致大量的遗留数据填满磁盘导致节点服务不可用的情况。日志文件Spark原生支持使用log4j配置文......
2024-01-24 05:13 阅读 阅读全文文章浏览阅读158次。摘要:本文讲述spark是怎么针对master、worker、executor的异常情况做处理的。本文分享自华为云社区《图解spark是如何实现集群的高可用》,作者:breakDawn。我们看下spark是怎么针对master、worker、executor的异常情......
2024-01-24 06:16 阅读 阅读全文文章浏览阅读9.2k次。本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当作一个数组......
2024-01-24 06:56 阅读 阅读全文