文章浏览阅读425次。本文仅提供一个入门概览,部分内容来源于网络,部分来源于自己理解,参考内容链接会在文末给出。概述Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境。它提供了 java,scala, python,R 等语言......
2024-01-23 23:16 阅读 阅读全文文章浏览阅读144次。========== Spark Streaming 是什么 ==========1、SPark Streaming 是 Spark 中一个组件,基于 Spark Core 进行构建,用于对流式进行处理,类似于 Storm。2、Spark Streaming 能够和 Spark Core、Spark SQL 来进行混合编程。3、Spark Streaming ......
2024-01-22 22:00 阅读 阅读全文文章浏览阅读229次。点击蓝色“有关SQL”关注我哟加个“星标”,天天与10000人一起快乐成长图 | Lenis相亲的日子里,总被亲戚朋友洗脑:女大三,抱金砖;腚大腰圆,生娃不难;漂亮女孩靠不住...听上去,..._消费链 大数据...
2024-01-23 23:18 阅读 阅读全文文章浏览阅读748次。Presto命令行Client安装1)下载Presto的客户端https://repo1.maven.org/maven2/com/facebook/presto/presto-cli/0.196/presto-cli-0.196-executable.jar2)将presto-cli-0.196-executable.jar上传到hadoop101的/opt/module/presto文件夹下3)修改文件名称 mv pres......
2024-01-24 05:57 阅读 阅读全文文章浏览阅读6.7k次,点赞4次,收藏18次。第1章 Spark 概述1.1 Spark是什么Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。主要用于数据计算,经常被认为是Hadoop框架的升级版。1.2 Spark 和Hadoop的缘分组成:Hadoop ......
2024-01-23 23:14 阅读 阅读全文文章浏览阅读717次。大数据开发之机器学习总结(Spark Mllib)(四)背景在大数据和机器学习交叉的领域,如果公司选择了hadoop生态,结合spark框架,则spark 的mllib用于机器学习实际应用就是不二选择了。团队有spark基础,学习和......
2024-01-23 19:07 阅读 阅读全文文章浏览阅读3.6k次,点赞2次,收藏28次。1 大数据概述大数据特性:4v volume velocity variety value 即大量化、快速化、多样化、价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可用于生成决策的......
2024-01-24 07:20 阅读 阅读全文文章浏览阅读1.9k次。这里写目录标题思考?SparkStreaming 的wordcount第1章 SparkStreaming 概述1.1 Spark Streaming 是什么1.2 Spark Streaming 的特点1.3 Spark Streaming 架构1.3.1 架构图1.3.2 背压机制第 2 章 Dstream 入门2.1 WordCount 案例实操2.2 WordCount 解......
2024-01-22 17:49 阅读 阅读全文文章浏览阅读169次。启动src/redis-server redis.confsrc/redis-cli -h hadoop000 -p 6379keys * 查询里面的keyHBase特点大:面向列:列族(可以存放很多列),列族/列独立索引稀疏:对于空的列,不会占用存储空间数据类型单一:btye/string无模式:......
2024-01-23 23:42 阅读 阅读全文文章浏览阅读411次。在Spark生态圈当中,MLlib组件,作为机器学习库而存在,在大数据分析、数据挖掘等数据处理操作上,提供重要的支持。学习Spark,对于MLlib组件的学习,也可以有相应程度的掌握。今天的大数据开发学习分享......
2024-01-22 14:27 阅读 阅读全文