网站介绍:文章浏览阅读473次。7 sparkStreaming实时数仓总结1、SparkStreaming实时数仓用到的存储介质都干啥事了--实时数仓中存储介质都干了些啥?1. redis 64G①存mid到set集合,重复的mid返回0则被过滤达到去重的目的(保留第一次启动数据)②窗口法双流join的去重③缓存法双流join缓存流数据④手动保存偏移量(除了消费dws_order_wide主题)2. hbase①从ods层消费维度表(主题)写到hbase(维度表的dwd层,初始化维度表只做一次)②user_st_sparkstreaming 实时往数仓中存数据
- 链接地址:https://blog.csdn.net/yangqian1794/article/details/118657948#comments_17534792
- 链接标题:sparkstreaming实时数仓总结_sparkstreaming 实时往数仓中存数据-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:1591
- 网站标签:sparkstreaming 实时往数仓中存数据