大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了......
2023-10-11 21:16 阅读 阅读全文文章浏览阅读213次。哪个大数据框架更适合你?来自四面八方的数据席卷而来,将我们裹挟进去。。随着数据每两年翻一番,数字宇宙正以飞快的速度追赶物理宇宙。据估计,到2020年,数字宇宙将达到44泽塔字节——其数字位的......
2024-01-23 10:49 阅读 阅读全文文章浏览阅读3.9w次,点赞8次,收藏84次。storm、spark streaming、flink都是开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,允许你在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简......
2024-01-23 11:31 阅读 阅读全文文章浏览阅读3.9w次,点赞8次,收藏84次。storm、spark streaming、flink都是开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,允许你在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简......
2024-01-23 11:31 阅读 阅读全文文章浏览阅读3.5k次。所有脚本和配置文件内容查看请点击0.JDK1.解压文件 1.1可以写一个分发脚本xsync.sh方便分发配置文件和项目框架 1.2配置SSH免密,方便文件的传输2.在/etc/profile.d/my_env.sh 文件中编写环境变量(如果没有,就创建......
2024-01-21 08:22 阅读 阅读全文文章浏览阅读1k次。1、概述MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的 分布式运算程序,......
2024-01-22 17:05 阅读 阅读全文Hadoop使用Apache Hadoop YARN(Yet Another Resource Negotiator)作为通用资源管理系统,可为上层应用提供统一的资源管理和调度。除了MapReduce,YARN还可以支持其他编程计算框架,如Spark、Storm等,它的引入为集群在利用率、资源统一管理和......
2023-10-10 03:37 阅读 阅读全文文章浏览阅读296次。文章目录环境准备安装配置下载配置环境变量修改conf目录下文件复制程序到从结点启动Spark集群在bigdata01机器上启动Spark启动时的错误验证是否成功查看进程浏览器查看官方standalone模式文档环境准备安装配置......
2024-01-23 22:43 阅读 阅读全文文章浏览阅读292次。Scrapy爬虫框架安装配置及创建使用Scrapy爬虫框架安装创建一个Scrapy爬虫框架Scrapy爬虫框架安装在命令提示符下载conda install scrapy如果安装失败,可能的原因是Scrapy爬虫框架所依赖的twisted安装失败。twisted是用Py......
2024-01-22 14:06 阅读 阅读全文