网站介绍:文章浏览阅读207次。hive中如何实现大数据情况下的全局排序参照hbase的设计 范围分区+局部有序 (distribute by sort by +指定范围)问题:遇到这样的面试题,有100t的数据,我们需要对其进行全局排序,怎么样做效率最高?一般来说我们在实际中很少会遇到全局排序的状况会很少,所以我们一般都会采取子查询之后的数据进行排序,或者选取topn来排序.如果非要对全局进行排序,我们需要使用udf转化成局部排序,这样话,就可以使用多个reduce来进行局部排序达到整体的有序.但是这里要注意采样数据_分桶后全局排序
- 链接地址:https://blog.csdn.net/qq_39126213/article/details/116898888
- 链接标题:hive全局排序和分桶_分桶后全局排序-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:7887
- 网站标签:分桶后全局排序