文章浏览阅读753次。文章目录1.为什么要学习Scala?1、spark底层是用Scala语言编写2、Scala基于Java ,开发效率高运行速度快2.Scala的简单介绍3.与Java语言的对比相同点:不同点:4.编译工具的安装5.main方法讲解语法6.常量和变量1)定义2)......
2024-01-22 16:50 阅读 阅读全文文章浏览阅读103次。Redis1、Redis简介和特点 (*) 前身:MemCached (*) 区别:支持持久化:RBD、AOF 丰富的数据类型2、安装配置Redis:需要gcc tar -zxvf redis-3.0.5.tar.gz make make PREFIX=/root/training/redis install 命令脚本 redis-benchmar..._make ......
2024-01-23 01:14 阅读 阅读全文文章浏览阅读105次。三部分的内容1、Spark Core:内核,是Spark中最重要的内容,相当于MapReduce Spark Core和MapReduce都是进行离线计算 Spark Core的核心:RDD(弹性分布式数据集),由分区组成 2、Spark SQL:相当于Hive、P......
2024-01-23 01:13 阅读 阅读全文在spark-shell中运行代码①能够使用正确的方式启动spark-shell;②能够在spark-shell中进行交互式编程。实验原理-> spark-shellspark-shell提供了简单的方式来学习 API,并且提供了交互的方式来分析数据。你可以输入一条语句,spark-she......
2024-01-23 23:47 阅读 阅读全文文章浏览阅读709次。一、什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程......
2024-01-24 05:58 阅读 阅读全文文章浏览阅读226次。一、RDD的两种创建方式Resilient Distributed Datasets (RDDs)弹性 分布式 数据集RDDS就是:弹性分布式数据集参考:http://cwiki.apachecn.org/pages/viewpage.action?pageId=2885920Spark 主要以一个弹性分布式数据集(RDD)的概念......
2024-01-23 20:39 阅读 阅读全文一、Scala核心编程课程简介<br /><br /> 近年来随着大数据的兴起,大数据核心框架Spark和Kafka也受到到广泛关注, Spark底层是Scala实现的, 因此也带火了Scala语言,目前Scala被全球知名公司(如:谷歌、百度、阿里、Twitter、......
2024-01-22 14:57 阅读 阅读全文文章浏览阅读900次。第1章 Spark Streaming 概述1.1 什么是 Spark Streaming1.2 为什么要学习 Spark Streaming1.3 Spark 与 Storm 的对比第2章 运行 Spark Streaming第3章 架构与抽象第4章 Spark Streaming 解析4.1 初始化 StreamingContext4.2 什么是 DStreams4.3 DStr..._......
2024-01-22 22:00 阅读 阅读全文文章浏览阅读376次。根据官网介绍:Spark SQL支持两种不同的方法将现有的RDDs转换为数据集。第一种方法使用反射来推断包含特定对象类型的RDD的模式。这种基于反射的方法可以生成更简洁的代码,并且当您在编写Spark应用程序时......
2024-01-23 20:39 阅读 阅读全文文章浏览阅读424次。1 解压缩文件将spark-2.4.5-bin-without-hadoop-scala-2.12.tgz文件上传到linux并解压缩,放置在指定位置。tar -zxvf spark-2.4.5-bin-without-hadoop-scala-2.12.tgz -C /opt/modulecd /opt/module mv spark-2.4.5-bin-without-hadoop-scala-2.12 spark-yarnspark2.4.......
2024-01-24 05:58 阅读 阅读全文