spark中的checkpoint,持久化和checkpoint的区别_spark 中 rdd checkpoint 和持久化的区别-CSDN博客

网站介绍:文章浏览阅读483次。文章目录spark中的checkpoint持久化和Checkpoint的区别spark中的checkpoint​ 持久化/缓存可以把数据放在内存中,虽然是快速的,但是也是最不可靠的;也可以把数据放在磁盘上,也不是完全可靠的!例如磁盘会损坏等。​ Checkpoint的产生就是为了更加可靠的数据持久化,在Checkpoint的时候一般把数据放在在HDFS上,这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全,实现了RDD的容错和高可用。具体用法:sc.setCheckpoint_spark 中 rdd checkpoint 和持久化的区别