hive全局排序和分桶_分桶后全局排序-CSDN博客

网站介绍:文章浏览阅读207次。hive中如何实现大数据情况下的全局排序参照hbase的设计 范围分区+局部有序 (distribute by sort by +指定范围)问题:遇到这样的面试题,有100t的数据,我们需要对其进行全局排序,怎么样做效率最高?一般来说我们在实际中很少会遇到全局排序的状况会很少,所以我们一般都会采取子查询之后的数据进行排序,或者选取topn来排序.如果非要对全局进行排序,我们需要使用udf转化成局部排序,这样话,就可以使用多个reduce来进行局部排序达到整体的有序.但是这里要注意采样数据_分桶后全局排序