网友收藏 yuyi_000擅长大数据存储(分布式或非分布式),编程语言,框架和开源项目,等方面的知识...
2023-10-14 10:03 阅读
阅读全文 网友收藏 文章浏览阅读4.6k次,点赞7次,收藏70次。文章目录一.需求描述二.架构设计三.数据采集模块搭建四.一.需求描述数据仓库( Data Waehouse ) 是为企业所有决策制定过程,提供所有系统数据支持的战略集合。通过对数据仓库中数据的分......
2024-01-23 08:31 阅读
阅读全文 网友收藏 文章浏览阅读134次。在Hadoop的学习当中,不管是自学还是在专业的大数据培训班学习,都需要对Hadoop整体的技术架构里的东西,都做到熟练掌握,这样才能在未来的工作上更加轻松应对。Hadoop技术体系庞杂,开始学习最好还是跟......
2024-01-22 14:27 阅读
阅读全文 网友收藏 文章浏览阅读138次。导读:本文将告诉你Flink是什么,以及为什么Flink会成为下一代大数据处理框架的标准。01 什么是Flink?在当前数据量激增传统的时代,不同的业务场景都有大量的业务..._flink将会成为企业内部主流的数据处理......
2024-01-22 16:26 阅读
阅读全文 网友收藏 文章浏览阅读281次。一、官网介绍1 什么是Spark官网地址:http://spark.apache.org/Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并......
2024-01-22 14:28 阅读
阅读全文 网友收藏 文章浏览阅读184次。Log For Java使用log4j第一步:在程序中导入log4j所需的jar包log4j.jar可以在网络中搜索对应名称,然后从官网下载最新版本。http://jakarta.apache.org/log4j第二步:书写配置文件log4j的配置文件无需学习书写,只需掌握......
2024-01-23 12:06 阅读
阅读全文 网友收藏 文章浏览阅读2.2k次。**⼤数据与实时⼤数据的区别与挑战**: 实时⼤数据除了具备⼤数据的所有特点外,还有⾃⼰的特点。与⼤数据相⽐,在数据集成⽅⾯,实时⼤数据在数据采集设备、数据分析⼯具、数据安全等⽅⾯有着更⾼......
2024-01-22 23:23 阅读
阅读全文 网友收藏 上一篇文章关于Storm kafka Zookeeper 集群、本次加入Flume Redis 的集群Apache Flume是一个分布式,可靠且可用的系统,用于高效地收集,汇总和将来自多个不同源的大量日志数据移动到集中式数据存储。Apache Flume的使用不仅限于日志数......
2023-10-11 21:14 阅读
阅读全文 网友收藏 文章浏览阅读775次。在大数据计算领域,先后出现了Hadoop、Spark、Storm、Flink等多个计算框架,并且每每当一个新兴计算引擎出现,大家就忍不住拿来与早期的计算引擎进行对比。然后就会出现诸如Flink会取代Spark吗,Flink和Spark哪......
2024-01-22 14:27 阅读
阅读全文 网友收藏 本文的主题是Hadoop+Spark大数据分析与机器学习。众所周知,Hadoop是运用最多的大数据平台,然而Spark 异军突起,与Hadoop兼容而且运行速度更快,各大公司也开始加入Spark的开发。例如,IBM公司加入Apache Spark社区,打算培育百万名......
2023-10-10 03:31 阅读
阅读全文