Hadoop入门指南之分区、规约实战_hadoop分区是什么?-CSDN博客

网站介绍:文章浏览阅读184次。上一篇通过统计库存实战来展示了Map和Reduce阶段,现在来介绍Shuffle阶段的分区和规约。分区是指根据一定的规则,把数据分成若干个区,分别给不同的Reducer进行处理,最后输出时,相同区的结果会在一个输出文件中,比如分了3个区,最后就会有3个输出文件。规约英文叫Combiner,我不太明白为什么中文翻译成了规约这个拗口的名称,也不易理解。我的理解就是合并,把相同的key的value合并成一个数据,让Reducer处理。因为Map完的数据在经过Shuffle阶段后,是通过网络来传输给Redu_hadoop分区是什么?