文章浏览阅读4.3k次。Spark BroadCastBroadcast 简单来说就是将数据从一个节点复制到其他各个节点,常见用于数据复制到节点本地用于计算,在前面一章中讨论过Storage模块中BlockManager,Block既可以保存在内存中,也可以保存在磁盘中......
2024-01-24 05:05 阅读 阅读全文文章浏览阅读5.9k次。Storage模块在Spark中提及最多的是RDD,而RDD所交互的数据是通过Storage来实现和管理Storage模块整体架构1. 存储层在Spark里,单机storage的管理是通过block来管理的,用每个块的存储可以在内存里或者在磁盘中,在B......
2024-01-24 05:05 阅读 阅读全文文章浏览阅读1k次,点赞2次,收藏3次。本子目录主要是针对,在大数据环境下进行机器学习的相关内容介绍子目录,总体内容和目录还是以 《大数据处理实践探索》 为准, 本子目录的内容主要以spark 尤其是pyspark 进行机器学习......
2024-01-23 03:52 阅读 阅读全文