网站介绍:文章浏览阅读1.4k次,点赞2次,收藏12次。分组排序TopN的第一种实现方式(1)思路:先将rdd转换为key/value键值对类型的rdd,然后按照key对数据进行聚合,对同组key的所有value数据进行排序,对排序之后的value集合获取出现次数最多的前3个数据// 缺点1:groupByKey这个API在现在这个版本的实现中,同组(相同key)的所有value全部加载到内存进行处理,当value特别多的时候就有可能出现OOM异常// 缺点2:在对同组key数据进行聚合操作的业务场景中,groupByKey的性能有点低,groupB._spark 分组topn
- 链接地址:https://blog.csdn.net/Mcharleylei/article/details/117485791
- 链接标题:Spark实现分组排序TopN_spark 分组topn-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:2663
- 网站标签:spark 分组topn