文章浏览阅读903次。一、什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.弹性:存储的弹......
2024-01-23 03:21 阅读 阅读全文文章浏览阅读104次。Spark Streaming整合Kafka_spark streaming整合kafka单词...
2024-01-23 09:30 阅读 阅读全文文章浏览阅读2.1k次。用IDEA编写spark程序,每次运行都要先打成jar包,然后再提交到集群上运行,这样很麻烦,不方便调试。我们可以直接在Idea中调试spark程序。例如下面的WordCount程序:package cn.edu360.sparkimport org.apache.spark.rdd.RDDim......
2024-01-24 00:50 阅读 阅读全文文章浏览阅读264次。https://blog.csdn.net/kxj19980524/article/details/90743861在01的基础上操作spark的HA是基础zookeeper的,所以在这之前先搭建好zookeeper集群编辑conf目录下的spark-env.sh文件,添加zookeeper配置信息,然后把SPARK_MASTER_HOST注释掉.export SPA......
2024-01-24 06:12 阅读 阅读全文文章浏览阅读369次。spark2.4.4 centOs7、hadoop3.4.4_spark.yarn.jars 如何配置高可用...
2024-01-24 06:36 阅读 阅读全文文章浏览阅读415次。Spark需要yarn(hadoop版本2.7.7),在ubuntu19上配置步骤如下。配置1、修改hadoop-env.shexport JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd642、修改yarn-env.shexport JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd643、修改co..._spark yarn 端口配置...
2024-01-24 07:16 阅读 阅读全文文章浏览阅读4.7w次,点赞49次,收藏193次。Spark学习: 简述总结 Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口.Spark学习 简述总结引言1 Hadoop 和 Spark 的关系Spark 系统架......
2024-01-24 07:58 阅读 阅读全文文章浏览阅读2.2w次。本文介绍了spark对hadoop sequencefile的读写支持,实现方式以及简单的使用方法。sequencefile和textfile类似,在上下文里有直接提供读取方法,但最终走的还是hadoopFile方法。_spark sequence file...
2024-01-24 09:27 阅读 阅读全文文章浏览阅读278次。专题介绍2009 年,Spark 诞生于加州大学伯克利分校的 AMP 实验室(the Algorithms, Machines and People lab),并于 2010 年开源。2013 年,Spark 捐献给阿帕奇软件基金会(Apache Software Foundation),并于 2014 年成为 Apache 顶级项目......
2024-01-24 09:54 阅读 阅读全文目录简介yarn集群模式yarn客户端模式yarn-client和yarn-cluster的区别简介spark的yarn运行模式根据Driver在集群中的位置分成两种:1)yarn-client客户端模式2)yarn-cluster集群模式yarn模式和standalone模式不同,standalone模式需要启动spark独立集......
2023-10-10 03:37 阅读 阅读全文