Spark Streaming状态管理函数updateStateByKey和mapWithState_huluwa-CSDN博客

网站介绍:文章浏览阅读1w次。updateStateByKey可以在指定的批次间隔内返回之前的全部历史数据,包括新增的,改变的和没有改变的。由于updateStateByKey在使用的时候一定要做checkpoint,当数据量过大的时候,checkpoint会占据庞大的数据量,会影响性能,效率不高。如果不输入新的数据,会一直展示之前的结果查看checkpoint文件夹下,发现有很多类似于checkpoint-1542090065000的状态文件这些checkpoint文件都是小文件,对hdfs的压力很大,怎么解决呢?下文会讲。..._huluwa