Spark中有2类角色,一个是Master类似Namenode做管理一个是Worker类似DataNode是干活的。将spark安装包【】解压至【中各个目录含义如下:bin可执行脚本配置文件data 示例程序使用数据examples 示例程序jars 依赖 jar 包集群管理命......
2023-10-10 03:31 阅读 阅读全文大数据spark优质下载资源包,包括大数据spark相关文档、大数据spark实例代码,让你快速上手,短时间处理代码难题,适用多种开发场景,文库支持个人、小团队和大机构的快速入驻、资源对接。...
2024-01-22 21:29 阅读 阅读全文文章浏览阅读4.5k次。大数据代表技术:Hadoop、Spark、Flink、BeamHadoop:从2005年到2015年,说到大数据都是讲hadoop。Hadoop是一整套的技术框架,不是一个单一软件,它是一个生态系统。Hadoop有两大核心:第一个是它解决了分布式存储......
2024-01-22 21:35 阅读 阅读全文尘世壹俗人擅长编程常识,C系列C++,大数据Spark技术,等方面的知识,尘世壹俗人关注hive,java,spark,hadoop,etl领域....
2023-11-13 07:28 阅读 阅读全文文章浏览阅读321次。通过上面的架构和源码实现的分析,不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释......
2024-01-25 06:41 阅读 阅读全文文章浏览阅读1.2w次。1、Spark Streaming用于处理流式计算问题。能够和Spark的其他模块无缝集成。2、Spark Streaming是一个粗粒度的框架【也就是只能对一批数据指定处理方法】,核心是采用微批次架构。和Storm采用的以条处理的不同......
2024-01-24 06:12 阅读 阅读全文文章浏览阅读288次。文章目录1 Scala语言概述2 Scala基础知识3 面向对象编程基础4 函数式编程基础快速掌握Spark编程所需的Scala基础。1 Scala语言概述计算机的缘起形式系统:λ演算=图灵机计算机体系结构:冯·诺依曼2. 编程范式定......
2024-01-22 22:49 阅读 阅读全文文章浏览阅读109次。第1章 RDD概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.2 RDD......
2024-01-23 13:12 阅读 阅读全文文章浏览阅读957次。第1章 Spark 概述1.Spark是什么Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。2.Spark and Hadoop在之前的学习中,Hadoop 的 MapReduce 是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框......
2024-01-23 14:05 阅读 阅读全文文章浏览阅读188次。第1章 机器学习概述1.1 机器学习是啥?1.2 机器学习能干啥?1.3 机器学习有啥?1.4 机器学习怎么用?第2章 机器学习的相关概念2.1 数据集2.2 泛化能力2.3 过拟合和欠拟合2.4 维度、特征2.5 模型2.6 学习第3章 算......
2024-01-22 22:00 阅读 阅读全文