Spark源码视频教程,Scala模式匹配精讲,Spark是当前流行的开源大数据内存计算框架,采用Scala语言实现,由UC 伯克利大学AMPLab实验室开发(2009)并于2010年开源,在2014年成为Apache基金会的顶级项目。2014年至2015年,Spark 经历了高......
2024-01-23 12:35 阅读 阅读全文文章浏览阅读2.2k次。这个和我“ Scala 程序使用 JNI 技术调用 C++ 程序 ” 这个博客基本一致,只不过是加上了 Spark 框架而已。区别不大1、首先,在 IDEA 中创建 Spark 程序,如:实现 Spark 程序中 调用 c++ 实现 向量相加 和 矩阵相乘......
2024-01-23 15:59 阅读 阅读全文文章浏览阅读824次。Spark Local模式环境搭建和使用Spark是一个开源的可应用于大规模数据处理的分布式计算框架,该框架可以独立安装使用,也可以和Hadoop一起安装使用。为了让Spark可以使用HDFS存取数据,本次采取和Hadoop一起安......
2024-01-23 23:51 阅读 阅读全文文章浏览阅读200次。一.spark内存管理只堆内存/堆外内存前世今生1.堆内存和对外内存作为jvm进程,executor的内存管理建立在jvm之上,spark对jvm的堆内空间进行了更为详细的分配,以充分利用内存,1.1堆内存的大小堆内存的大小,由spark应......
2024-01-24 09:52 阅读 阅读全文文章浏览阅读1.6k次,点赞2次,收藏16次。概述spark Streaming是对核心Spark API的一个扩展,用来实现对实时流数据的处理,并且具有很好的可扩展性、高吞吐量和容错性。Spark Streaming支持从多种数据源提取数据,例如:Kafka、Flume、K......
2024-01-23 12:49 阅读 阅读全文文章浏览阅读2.3w次,点赞2次,收藏8次。机器学习库(MLlib)指南MLlib是Spark的机器学习(ML)库。其目标是使实际的机器学习可扩展和容易。在高层次上,它提供了如下工具:ML算法:通用学习算法,如分类,回归,聚类和协同......
2024-01-23 22:29 阅读 阅读全文文章浏览阅读2.1w次,点赞19次,收藏84次。RDDRDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念,自然也是理解Apache Spark 工作原理的最佳入口之一。RDD的特点: 1. 是一个分区的只读记录的集合; 2. 一个具有......
2024-01-24 07:58 阅读 阅读全文文章浏览阅读708次。目录一、学习Spark SQL必要性二、SparkSQL的几大特点易整合统一的访问形式兼容Hive标准的数据连接三、API操作3.1、从mysql数据库获取数据3.2、从HDFS/本地 上获取数据(因为获取的光是数据,所以需要额外创建schema......
2024-01-24 08:20 阅读 阅读全文一个人的牛牛擅长spark,安装部署大杂烩,Linux学习及相关操作,等方面的知识,一个人的牛牛关注hive,zookeeper,数据仓库,html5,scala,idea,powerbi,javascript,intellij idea,sql,前端框架,database,spark,flume,hdfs,mysql,vim,hadoop,big data,hbase,css3领域....
2023-10-11 21:54 阅读 阅读全文文章浏览阅读1.2w次,点赞12次,收藏44次。转自:http://www.aboutyun.com/thread-21115-1-1.html问题导读:1. spark 如何在1.6.0之后使用Netty替代了Akka?2. Spark Network Common怎么实现?3. BlockTransfer 与 Shuffle 之间的联系?4. Akka 实现原理是什么?......
2024-01-23 17:58 阅读 阅读全文