SPARK-艾客网

Spark Core学习笔记（三）_如果需要进行快速的失败恢复,那么就选择带后缀为_2的策略,进行数据的备份,这样在-CSDN博客

文章浏览阅读510次。Spark 是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。_如果需要进行快速的失败恢复,那么就选择带后缀为_2的策略,进行数据的备份,这样在...

2024-01-23 13:29 评论 0 阅读

阅读全文

Spark Python API函数：pyspark API(3)_y = x.histogram([0,0.5,1,1.5,2,2.5,3,3.5])-CSDN博客

文章浏览阅读380次。文章目录• 1 histogram• 2 mean• 3 variance• 4 stdev• 5 sampleStdev• 6 sampleVariance• 7 countByValue• 8 top• 9 takeOrdered• 10 take• 11 first• 12 collectAsM..._y = x.histogram([0,0.5,1,1.5,2,2.5,3,3.5])...

2024-01-24 09:54 评论 0 阅读

阅读全文

Spark Core 快速入门系列（八）RDD 的分布式共享变量_rdd.map{case(,)=>}-CSDN博客

文章浏览阅读234次。文章目录RDD 的分布式共享变量什么是闭包分发闭包累加器广播变量RDD 的分布式共享变量目标1，理解闭包以及 Spark 分布式运行代码的根本原理2，理解累加变量的使用场景3，理解广播的使用场景什么是闭包闭......

2024-01-23 23:08 评论 0 阅读

阅读全文

Spark RDD_"var rdd=sc.parallelize(seq(\"hello\"))"-CSDN博客

文章浏览阅读272次。1.RDD 概述1.1 什么是 RDD ?RDD(Resilient Distributed Dataset) 叫着弹性分布式数据集，是Spark 中最基本的抽象，它代表一个不可变、可分区、里面元素可以并行计算的集合。RDD 具有数据流模型特点：自动容错、位置感......

2024-01-24 08:01 评论 0 阅读

阅读全文

基于spark的Scala编程—RDD、DataFrame和DataSet的区别_dataframe和dataset是谁提出的-CSDN博客

文章浏览阅读660次。本文主要介绍RDD、DataFrame和DataSet这三者到底有什么区别，主要介绍以下几个方面：分别出现在spark的哪些版本？各自的优缺点是什么？应该如何选择使用哪个类别？分别出现在spark的哪些版本？RDD是spark一开......

2024-01-23 22:20 评论 0 阅读

阅读全文

hadoop中的Yarn和spark的StandAlone调度模式的对比_standalone和yarn模式的调度有什么不同-CSDN博客

文章浏览阅读459次。YARN的基本思想是将JobTracker的两个主要功能（资源管理和作业调度/监控）分离，主要方法是创建一个全局的ResourceManager（RM）和若干个针对应用程序的ApplicationMaster（AM）。这里的应用程序是指传统的MapReduce作......

2024-01-24 04:52 评论 0 阅读

阅读全文

SparkSQL查询Apache Hudi表进入命令_org.apache.spark.sql.hudi.catalog.hoodiecatalog-CSDN博客

文章浏览阅读544次。bin/spark-sql --jars hudi-spark3-bundle_2.12-0.9.0.jar \--packages org.apache.spark:spark-avro_2.12:3.1.2 \--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \--conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExt_org.apache.spark.sq......

2024-01-23 03:07 评论 0 阅读

阅读全文

Spark1.5.2日志配置&数据文件清理_dspark.worker.cleanup.appdatattl-CSDN博客

文章浏览阅读1.4k次。本节讨论Spark Standalone Mode 模式下的日志配置及作用运行过程中的历史文件的清理，避免线上环境的不合理配置导致大量的遗留数据填满磁盘导致节点服务不可用的情况。日志文件Spark原生支持使用log4j配置文......

2024-01-24 05:13 评论 0 阅读

阅读全文

手绘流程图讲解spark是如何实现集群的高可用_服务集群要怎么画cdsn-CSDN博客

文章浏览阅读158次。摘要：本文讲述spark是怎么针对master、worker、executor的异常情况做处理的。本文分享自华为云社区《图解spark是如何实现集群的高可用》，作者：breakDawn。我们看下spark是怎么针对master、worker、executor的异常情......

2024-01-24 06:16 评论 0 阅读

阅读全文

spark中RDD的转化操作和行动操作_简述转换和行动操作的概念，以及两者之间的区别-CSDN博客

文章浏览阅读9.2k次。本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型，谈到RDD就会提到什么弹性分布式数据集，什么有向无环图，本文暂时不去展开这些高深概念，在阅读本文时候，大家可以就把RDD当作一个数组......

2024-01-24 06:56 评论 0 阅读

阅读全文