网站介绍:文章浏览阅读1w次。updateStateByKey可以在指定的批次间隔内返回之前的全部历史数据,包括新增的,改变的和没有改变的。由于updateStateByKey在使用的时候一定要做checkpoint,当数据量过大的时候,checkpoint会占据庞大的数据量,会影响性能,效率不高。如果不输入新的数据,会一直展示之前的结果查看checkpoint文件夹下,发现有很多类似于checkpoint-1542090065000的状态文件这些checkpoint文件都是小文件,对hdfs的压力很大,怎么解决呢?下文会讲。..._huluwa
- 链接地址:https://yaohongxu.blog.csdn.net/article/details/126308507
- 链接标题:Spark Streaming状态管理函数updateStateByKey和mapWithState_huluwa-CSDN博客
- 所属网站:yaohongxu.blog.csdn.net
- 被收藏次数:4967
- 网站标签:huluwa