文章浏览阅读2k次。Apache Spark,它是用于大数据分析、处理和计算的通用引擎。与MapReduce相比,它具有几个优点:它更快、更易于使用、简单,并且几乎可以在任何地方运行。它具有用于 SQL、机器学习和流式传输的内置工具,这......
2024-01-22 17:28 阅读 阅读全文文章浏览阅读270次。大数据训练大纲(第01天)学习目标:安装大数据环境虚拟机、linux安装网络环境理解大数据的概念学习linux的简单命令学习linux文件系统什么是快照?操作虚拟机时候,想保存当前状态为以后操作失误快速那时......
2024-01-22 17:50 阅读 阅读全文文章浏览阅读9.7k次,点赞40次,收藏130次。大数据时代已经到来最近几十年,高速发展的互联网,渗透进了我们生活的方方面面,整个人类社会都已经被互联网连接为一体。身处互联网之中,我们无时无刻不在产生大量数据,如......
2024-01-22 17:44 阅读 阅读全文文章浏览阅读105次。1、RDD 全称 弹性分布式数据集 Resilient Distributed Dataset它就是一个 class。abstractclassRDD[T:ClassTag](@transientprivatevar_sc:SparkContext,@transientprivatevardeps:Seq[Dependency[_]])......
2024-01-22 22:00 阅读 阅读全文文章浏览阅读145次。一、安装配置HUE(待完成)二、利用ZooKeeper实现秒杀系统:分布式锁的功能 private static int mNumber = 5; public static void main(String [] args){ RetryPolicy policy = new ExponentialBackoffRetry(10,1000); //创..._ha和联盟的......
2024-01-23 01:14 阅读 阅读全文文章浏览阅读725次。【学习笔记】大数据技术之Flink(三)-容错机制,TableAPI和SQL,CEP_finksql 容错...
2024-01-22 17:48 阅读 阅读全文文章浏览阅读1.3k次。大数据学习04 Scala的学习在Spark学习之前,先进行对Scala的学习提示:已经有Scala基础的同学可以先跳过这部分文章目录大数据学习04 Scala的学习Scala是什么一、Scala入门1.为什么学习Scala2.Scala的发展历史二、Scal......
2024-01-23 02:52 阅读 阅读全文文章浏览阅读195次。HDFS核心概念1 Blocks物理磁盘中有块的概念,磁盘的物理Block是磁盘操作最小的单元,读写操作均以Block为最小单元,一般为512 Byte。文件系统在物理Block之上抽象了另一层概念,文件系统Block物理磁盘Block的整数......
2024-01-22 17:50 阅读 阅读全文文章浏览阅读3.5k次,点赞132次,收藏110次。因为读书并不能改变命运,它只能改变你的信息量,读是一个输入的操作,以前是个小学字典,读多了变成了新华字典,但只要你没有进一步的处理,它就永远是字典,毫无价值,真......
2024-01-22 16:37 阅读 阅读全文文章浏览阅读91次。========== Spark 通信架构 ==========1、spark 一开始使用 akka 作为网络通信框架,spark 2.X 版本以后完全抛弃 akka,而使用 netty 作为新的网络通信框架。最主要原因:spark 对 akka 没有维护,需要 akka 更新,spark 的发展......
2024-01-22 22:00 阅读 阅读全文