spark ---1 Shuffle_diskobjectwriter 带来的 writer handler 的缓存也非常消耗内存-CSDN博客

网站介绍:文章浏览阅读202次。1 Hash Shuffle V1相对于传统的 MapReduce,Spark 假定大多数情况下 Shuffle 的数据不需要排序,例如 Word Count,强制排序反而会降低性能。因此不在 Shuffle Read 时做 Merge Sort,如果需要合并的操作的话,则会使用聚合(agggregator),即用了一个 HashMap (实际上是一个 AppendOnlyMap)来将数据进行合并。在 Map Task 过程按照 Hash 的方式重组 Partition 的数据,不进行排序。每个 Ma._diskobjectwriter 带来的 writer handler 的缓存也非常消耗内存