Spark实现分组排序TopN_spark 分组topn-CSDN博客

网站介绍:文章浏览阅读1.4k次,点赞2次,收藏12次。分组排序TopN的第一种实现方式(1)思路:先将rdd转换为key/value键值对类型的rdd,然后按照key对数据进行聚合,对同组key的所有value数据进行排序,对排序之后的value集合获取出现次数最多的前3个数据// 缺点1:groupByKey这个API在现在这个版本的实现中,同组(相同key)的所有value全部加载到内存进行处理,当value特别多的时候就有可能出现OOM异常// 缺点2:在对同组key数据进行聚合操作的业务场景中,groupByKey的性能有点低,groupB._spark 分组topn