sparkstreaming实时数仓总结_sparkstreaming 实时往数仓中存数据-CSDN博客

网站介绍:文章浏览阅读473次。7 sparkStreaming实时数仓总结1、SparkStreaming实时数仓用到的存储介质都干啥事了--实时数仓中存储介质都干了些啥?1. redis 64G①存mid到set集合,重复的mid返回0则被过滤达到去重的目的(保留第一次启动数据)②窗口法双流join的去重③缓存法双流join缓存流数据④手动保存偏移量(除了消费dws_order_wide主题)2. hbase①从ods层消费维度表(主题)写到hbase(维度表的dwd层,初始化维度表只做一次)②user_st_sparkstreaming 实时往数仓中存数据