文章浏览阅读3.3k次,点赞3次,收藏24次。SparkDF与SparkSQL交互操作函数笔记一、生成DF方式1.toDF2.createDataFrame3.list 转 DF4.schema动态创建DataFrame5.通过读取文件创建DF二、保存文件三、DF相关API1.Action2.RDD类操作3.Excel类操作四、DF与SQL交......
2024-01-24 09:52 阅读 阅读全文文章浏览阅读977次。(下面所有操作都要建立在安装过JDK的基础上)请到官网下载最新版本的scala、hadoop和spark,移动至/usr/local文件夹。一、安装Scala1、解压2、重命名3、编辑/etc/profile在底部添加export PATH=/usr/local/scala/bin:$PATH4、......
2024-01-22 21:47 阅读 阅读全文文章浏览阅读536次。spark-yarn提交任务的几种方式1、Yarn模式两种提交任务方式1.1、yarn-client提交任务方式1.1.1 yarn-client执行流程1.2、yarn-cluster提交任务方式1.2.1 yarn-cluster执行流程1.3、ApplicationMaster作用1、Yarn模式两种提交任务方式1......
2024-01-24 07:16 阅读 阅读全文文章浏览阅读2.8k次。机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用于分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是基......
2024-01-22 21:35 阅读 阅读全文文章浏览阅读277次。Spark SQL表达式解析器-Scala Parser与Antlr4 版权声明:本文为博主原创文章,未经博主允许不得转载。 手动码字不易,请大家尊重劳动成果,谢谢 作者:http://blog.csdn.net/wang_wbqSpark SQL之所以能支持如此强大......
2024-01-22 15:22 阅读 阅读全文文章浏览阅读2.8k次。目录1 Spark的介绍1.1 Spark的定义1.2 Spark为什么比MapReduce快?1.3 RDD 弹性式分布式数据集1.4 MasterURL1 Spark的介绍1.1 Spark的定义它是一个集成了离线计算、实时计算、SQL查询、机器学习、图计算为一体的一站式框架......
2024-01-22 16:10 阅读 阅读全文文章浏览阅读260次。文章目录一、代码优化1、对多次使用的RDD进行缓冲2、使用高性能算子3、广播变量 broadcast4、Kryo优化序列化性能5、数据本地性二、参数调优三、数据倾斜优化1、双重聚合2、将 reduce join 转为 map join3、双重 joi......
2024-01-23 04:52 阅读 阅读全文文章浏览阅读3.5k次,点赞2次,收藏6次。聚类 - spark.mllib聚类是一种无监督的学习问题,我们的目标是根据一些相似的概念将实体的子集相互分组。聚类通常用于探索性分析和/或作为分层 监督学习管线(其中针对每个群集训练......
2024-01-23 22:59 阅读 阅读全文文章浏览阅读8.5w次,点赞10次,收藏21次。最近在做公司运营报表时需要将百万数据一次性写入MySQL简单指定必须参数url,user,password,driver(也为必须参数,如果不指定会报错),dbtable后,发现写入数据时非常的慢,甚至只写入一部......
2024-01-24 00:40 阅读 阅读全文