Spark实现分组排序TopN_spark 分组topn-CSDN博客blog.csdn.net

网站介绍：文章浏览阅读1.4k次，点赞2次，收藏12次。分组排序TopN的第一种实现方式（1）思路：先将rdd转换为key/value键值对类型的rdd，然后按照key对数据进行聚合，对同组key的所有value数据进行排序，对排序之后的value集合获取出现次数最多的前3个数据// 缺点1：groupByKey这个API在现在这个版本的实现中，同组(相同key)的所有value全部加载到内存进行处理，当value特别多的时候就有可能出现OOM异常// 缺点2：在对同组key数据进行聚合操作的业务场景中，groupByKey的性能有点低，groupB._spark 分组topn

链接地址：https://blog.csdn.net/Mcharleylei/article/details/117485791
链接标题：Spark实现分组排序TopN_spark 分组topn-CSDN博客
所属网站：blog.csdn.net
被收藏次数：2663
网站标签：spark 分组topn

分享到各大网站