张包峰擅长Spark,Hadoop,分布式系统,等方面的知识...
2023-10-10 03:33 阅读 阅读全文如何解决gcc版本冲突,2014年大数据会议感想,线上hadoop集群namenode迁移,分布式计算,mapreduce,调试...
2024-01-23 06:47 阅读 阅读全文文章浏览阅读1.7k次,点赞2次,收藏10次。机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不......
2024-01-23 10:18 阅读 阅读全文文章浏览阅读3.5k次,点赞2次,收藏8次。1.HDFS的基本框架与工作过程1.1 基本组成结构与文件访问过程HDFS是一个建立在一组分布式服务器节点的本地文件系统之上的分布式文件系统。其采用经典的主-从式结构,其基本组成结构......
2024-01-24 06:29 阅读 阅读全文Hadoop web页面的授权设定,Number of Under-Replicated Blocks问题,hadoop之文件系统HA搭建的部署细节,hadoop,大数据...
2024-01-24 00:17 阅读 阅读全文文章浏览阅读725次。随着智能化、万物互联时代的快速发展,数据量开始暴增,一方面我们需要开始思考如何高效可靠地存储海量的数据,另一方面我们还需要对这些数据进行分析处理,以获得更多有价值的信息。这时期我们就......
2024-01-22 14:13 阅读 阅读全文文章浏览阅读4.7w次,点赞41次,收藏233次。机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互......
2024-01-22 21:35 阅读 阅读全文文章浏览阅读1.8k次,点赞4次,收藏17次。HDFS是Hadoop的底层分布式存储系统,是Hadoop分布式计算的底层基石,要使用Hadoop就必须学习HDFS的使用。本文介绍了为什么要使用HDFS、HDFS的基本使用、核心架构组成以及分布式可靠性保障......
2024-01-25 06:50 阅读 阅读全文文章浏览阅读320次。搭建集群的模式有三种 1.伪分布式:在一台服务器上,启动多个线程分别代表多个角色(因为角色在集群中使用进程表现的) 2.完全分布式:在多台服务器上,每台服务器启动不同角色的进程,多台服务器构成......
2024-01-25 06:16 阅读 阅读全文Hadoop介绍HDFS理论HDFS集群搭建CLI使用API使用第一章 统一思维单机大数据处理实现以及问题问题引入问题1T 文件,有数字,按行存储 ,每行不是特别长要求找出存在的重复行(假设只有两行)全排序单词重复数环境只有一台计算机 ,要......
2023-10-11 14:29 阅读 阅读全文