网站介绍:文章浏览阅读1.4w次,点赞9次,收藏37次。概要有时在开发过程中,会遇到需要在算子函数中使用外部变量的场景(尤其是大变量,比如100M以上的大集合),那么此时就应该使用Spark的广播(Broadcast)功能来提升性能。在算子函数中使用到外部变量时,默认情况下,Spark会将该变量复制多个副本,通过网络传输到task中,此时每个task都有一个变量副本。如果变量本身比较大的话(比如100M,甚至1G),那么大量的变量副本在网络中传输的性能开_spark brodcast 广播
- 链接地址:https://blog.csdn.net/leen0304/article/details/78720838?ops_request_misc=&request_id=&biz_id=102&utm_te
- 链接标题:Spark性能调优:广播大变量broadcast_spark brodcast 广播-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:4206
- 网站标签:spark brodcast 广播