网站介绍:文章浏览阅读202次。1 Hash Shuffle V1相对于传统的 MapReduce,Spark 假定大多数情况下 Shuffle 的数据不需要排序,例如 Word Count,强制排序反而会降低性能。因此不在 Shuffle Read 时做 Merge Sort,如果需要合并的操作的话,则会使用聚合(agggregator),即用了一个 HashMap (实际上是一个 AppendOnlyMap)来将数据进行合并。在 Map Task 过程按照 Hash 的方式重组 Partition 的数据,不进行排序。每个 Ma._diskobjectwriter 带来的 writer handler 的缓存也非常消耗内存
- 链接地址:https://blog.csdn.net/chenyixin121738/article/details/116627859
- 链接标题:spark ---1 Shuffle_diskobjectwriter 带来的 writer handler 的缓存也非常消耗内存-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:488
- 网站标签:diskobjectwriter 带来的 writer handler 的缓存也非常消耗内存