RDD(弹性分布式数据集)介绍---Spark的核心_弹性分布式通过checkpoint什么方式-CSDN博客

网站介绍:文章浏览阅读378次。Sparkspark和hadoop的区别:hadoop磁盘IO开销大,延迟高、表达能力有限(需要转换为MapReduce)、在前一个任务执行完成之前,其他任务都无法开始,map 和 reduce过程,任务之间的衔接。spark计算模式也属于MapReduce,但不局限与map和reduce操作,还提供了多种数据集操作类型、提供内存计算,将中间结果放在内存中,对于迭代计算效率更高。..._弹性分布式通过checkpoint什么方式