网站介绍:文章浏览阅读677次。spark shuffle操作的两个特点:1.spark中bucket缓存默认是100KB,写入数据达到刷新到磁盘的阈值后,就会将数据一点一点刷新到磁盘。如果内存缓存过小,会发生过多的磁盘IO操作,需要根据实际的业务情况进行优化。2.MapReduce必须将所有的数据都写入本地磁盘文件后,才能启动reduce操作,来拉取数据,因为MapReduce要实现默认的根据key的排序,需要写完所有的数据才..._shuffle操作的特点
- 链接地址:https://blog.csdn.net/ymcz1987/article/details/79473351
- 链接标题:spark学习-spark shuffle操作的两个特点_shuffle操作的特点-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:881
- 网站标签:shuffle操作的特点