local[N]代表在本地运行,使用N个线程,也就是说可以同时执行N个程序,虽然在本地运行,但是因为cpu大多是多个核心,所以使用多个线程会加速执行,那么local[4]就代表4个线程..._spark local[] 线程数...
2023-10-10 03:31 阅读 阅读全文文章浏览阅读727次。import Utils.SparkUtilsimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDobject ReduceByKeyDemo { def main(args: Array[String]): Unit = { val sc: SparkContext =SparkUtils.getSparkContext() val tf: RDD[String] =sc.textFile("da_spark rdd reduceby......
2024-01-22 19:32 阅读 阅读全文文章浏览阅读2.4k次。Scala集成环境_scala集成spark...
2024-01-23 03:02 阅读 阅读全文文章浏览阅读2.4k次。Scala集成环境_scala集成spark...
2024-01-23 03:02 阅读 阅读全文文章浏览阅读2.5k次。需求:处理文件test.log数据,得到用户每日留存率环境:idea,mven,scala.spark,mysql文件:2018-09-04T20:27:31+08:00 http://datacenter.bdqn.cn/logs/user?actionBegin=1536150451540& actionClient =Mozilla%2F5.0+%28Windows+NT+10.0%3B+WOW64%29+AppleWeb......
2024-01-23 20:01 阅读 阅读全文文章浏览阅读1.4k次,点赞4次,收藏15次。Spark高频考点,你都会了吗?_spark面试知识点...
2024-01-22 14:23 阅读 阅读全文文章浏览阅读462次。Apache Spark一、概述官方地址:http://spark.apache.org/Lightning-fast unified analytics engine : 快如闪电的统一分析引擎快如闪电:Spark基于内存式计算,分布式并行计算框架。不同于MapReduce框架,基于磁盘式计算,将Job......
2024-01-23 13:20 阅读 阅读全文文章浏览阅读594次。Spark大数据-输入源之kafkakafka相关基础高吞吐量的分布式发布订阅消息系统,能订阅和发布消息。broker:kafka集群中每个节点服务器叫broker。topic:消息扔给某个topic,订阅相关topic即可。partition:每个topic消息......
2024-01-23 23:12 阅读 阅读全文文章浏览阅读1.1w次,点赞11次,收藏58次。Spark环境搭建安装及配置详细步骤_spark环境搭建及配置...
2024-01-24 00:35 阅读 阅读全文文章浏览阅读5k次。一 下载从官网下载对应版本的spark,博主下载的是spark-1.5.1-bin-hadoop2.4.tgz。二 安装1、安装之前我们用WinSCP工具,将刚下载的tgz文件上传到Linux的/usr/local目录下。2、解压tgz文件。三 配置环境变量四 修改spark-en......
2024-01-24 08:05 阅读 阅读全文