文章浏览阅读635次。目录1 Job执行三原则1.1 原则一 充分利用集群资源1.2 原则二 ReduceTask并发调整1.3 原则三 Task执行时间要合理2 Shuffle调优2.1 Map阶段2.2 Copy阶段2.3 Reduce阶段3 Job调优1 Job执行三原则充分利用集群资源reduce阶段尽量......
2024-02-07 12:51 阅读 阅读全文Hadoop一、入门1、大数据定义2、Hadoop 入门概念①Hadoop是什么?②Hadoop发展历史③Hadoop的三大发行版本④Hadoop的优势⑤Hadoop的组成 (重点)⑥大数据技术生态体系⑦推荐系统案例模拟虚拟机准备安装`epel-releaes`安装`net-tool`一、入......
2023-10-11 14:25 阅读 阅读全文资源浏览查阅39次。大数据:Apache技术和大数据实践(Hadoop,Spark,Scala,Hbase,Cassandra...),大数据:Apache技术和大数据实践(Hadoop,Spark,Scala,Hbase,Cassandra...)更多下载资源、学习资料请访问CSDN文库频道...
2024-01-23 08:29 阅读 阅读全文文章浏览阅读92次。最近知乎上有这样一个问题“为什么很多公司都采用Hadoop方案处理大数据业务”,引来很多回答,笔者整理如下,其观点或有时而可商,欢迎讨论。先说一说什么样的公司比较倾向于使用Hadoop。有人认为,使......
2024-01-23 10:47 阅读 阅读全文HDFS是Apache Hadoop项目的一部分,是一个分布式文件系统,用于存储和管理文件,能提高超大文件的访问和存储速度。HDFS采用一次写入多次读取的流式数据访问模式保证了数据的一致性。HDFS是一个高度容错性的系统,适合部署在......
2024-01-24 20:41 阅读 阅读全文HDFS是Apache Hadoop项目的一部分,是一个分布式文件系统,用于存储和管理文件,能提高超大文件的访问和存储速度。HDFS采用一次写入多次读取的流式数据访问模式保证了数据的一致性。HDFS是一个高度容错性的系统,适合部署在......
2024-01-24 20:41 阅读 阅读全文文章浏览阅读1.4k次。join应用主要是将两个表的数据进行合并操作。分别在map端和reduce端。1、ReduceJoinMap 端的主要工作:为来自不同表或文件的 key/value 对,打标签以区别不同来源的记 录。然后用连接字段作为 key,其余部分和新......
2024-01-22 17:05 阅读 阅读全文文章浏览阅读3k次,点赞17次,收藏11次。前言此系列主要为我的学弟学妹们所创作,在某些方面可能偏基础。如果读者感觉较为简单,还望见谅!如果文中出现错误,欢迎指正~.本文主要介绍了Hadoop再探讨High Availability(HA)及YARN原......
2024-01-24 06:00 阅读 阅读全文