10小时入门大数据:第5章-分布式计算框架MapReduce-CSDN博客

网站介绍:MapReduce概述 源于google论文 是google的克隆版 优点:海量数据离线处理,易开发,易运行 缺点:实时流式计算从wordcount案例说起mapreduce编程模型通过wordcount词频统计分析案例入门 wordcount:统计文件中每个单词出现的次数 需求:求wc1)文件内容小:shell2)文件内容很大: TB...