如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?对于大部分人来说都是傻傻分不清楚。...
2024-01-30 17:35 阅读 阅读全文文章浏览阅读1k次。1、概述MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的 分布式运算程序,......
2024-01-22 17:05 阅读 阅读全文文章浏览阅读397次。从0到1环境搭建HADOOP伪分布式 hadoop-3.2.1 1、虚拟机设置2、工具安装3、JAVA4、用户5、hadoop6、yarn_/usr/local/hadoop/hadoop-3.3.2/sbin/stop-all.sh: line 68: mapred --daemon st...
2024-01-24 04:58 阅读 阅读全文HDFS是Apache Hadoop项目的一部分,是一个分布式文件系统,用于存储和管理文件,能提高超大文件的访问和存储速度。HDFS采用一次写入多次读取的流式数据访问模式保证了数据的一致性。HDFS是一个高度容错性的系统,适合部署在......
2024-01-24 20:41 阅读 阅读全文HDFS是Apache Hadoop项目的一部分,是一个分布式文件系统,用于存储和管理文件,能提高超大文件的访问和存储速度。HDFS采用一次写入多次读取的流式数据访问模式保证了数据的一致性。HDFS是一个高度容错性的系统,适合部署在......
2024-01-24 20:41 阅读 阅读全文文章浏览阅读362次。1、虚拟机环境准备 安装centos7,ip地址192.168.19.100、主机名称hadoop100、内存4G2、设置虚拟机和本地网络的连接状态将VM中的【编辑】-->【虚拟网络编辑器】进NAT设置再到本机的网络连接处修改ip地址与虚拟机......
2024-01-22 17:05 阅读 阅读全文大数据:Hadoop基础常识hive,hbase,MapReduce,SparkHadoop是根据Google三大论文为基础研发的,Google 三大论文分别是: MapReduce、 GFS和BigTable。Hadoop的核心是两个部分:一、分布式存储(HDFS,Hadoop Distributed File System)。二、分布式计算(......
2023-10-10 03:07 阅读 阅读全文文章浏览阅读274次。一直想编写一系列有关大数据开发、数据挖掘、云计算等相关课程的学习资料,为零基础又想从事大数据行业的小伙伴提供一些参考。今天第一篇《Hadoop分布式集群环境构建(1)》终于和大家见面了。一集......
2024-01-22 14:12 阅读 阅读全文文章浏览阅读172次。安装[kfk@bigdata-pro01 ~]$ sudo rpm -qa|grep ntpfontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.4p8-3.el6.centos.x86_64ntp-4.2.4p8-3.el6.centos.x86_64服务[kfk@bigdata-pro01 ~]$ sudo rpm -qa|grep ntpfontpackages-filesystem-1.41-1.1.el6.noarchntp_hadoop 2.x 时间...
2024-01-24 04:58 阅读 阅读全文文章浏览阅读2.2w次,点赞2次,收藏14次。一、前言 以微博为例,每个用户会发很多微博,其中包含了很多关键词信息。而这些关键词就是用户可能感兴趣的事物。我们需要用Hadoop MapperReduce计算出来。折旧引出了文档加权算法。......
2024-01-23 17:52 阅读 阅读全文