文章浏览阅读437次。1 需求分析及实现思路1.1 分层需求分析1.1.1 实时数仓为什么要分层?建设实时数仓的目的,主要是为了增加数据计算的复用性。每次新增加统计需求时,不至于从原始数据进行计算,而是从半成品继续加工而......
2024-01-22 20:34 阅读 阅读全文 哈啰大家好,又是我这只大香梨三黄鸡。本文只有一个主旨,就是把我家已经开封过的白茶给晒出来。出场的猪脚们一共有六位,其中有自己陈了几年的普通白茶,也有...
2024-10-02 04:58 阅读 阅读全文 哈啰大家好,又是我这只大香梨三黄鸡。本文只有一个主旨,就是把我家已经开封过的白茶给晒出来。出场的猪脚们一共有六位,其中有自己陈了几年的普通白茶,也有...
2024-10-02 04:58 阅读 阅读全文 文章浏览阅读4.4w次,点赞93次,收藏554次。数仓数据分层简介1. 背景数仓是什么, 其实就是存储数据,体现历史变化的一个数据仓库. 因为互联网时代到来,基于数据量的大小,分为了传统数仓和现代数仓.传统数仓,使用传统的关系型......
2024-01-23 19:02 阅读 阅读全文 文章浏览阅读893次。一、概述埋点采集、用户行为分析、实时数仓、IdMapping此文重点讲述埋点的数据模型、数据格式、数据实时采集、加工、存储及用户关联。关于用户行为分析的概念、意义以及埋点相关的东西此文不作赘述二......
2024-01-12 19:52 阅读 阅读全文 文章浏览阅读473次。7 sparkStreaming实时数仓总结1、SparkStreaming实时数仓用到的存储介质都干啥事了--实时数仓中存储介质都干了些啥?1. redis 64G①存mid到set集合,重复的mid返回0则被过滤达到去重的目的(保留第一次启动数据)②......
2024-01-23 01:04 阅读 阅读全文 文章浏览阅读473次。7 sparkStreaming实时数仓总结1、SparkStreaming实时数仓用到的存储介质都干啥事了--实时数仓中存储介质都干了些啥?1. redis 64G①存mid到set集合,重复的mid返回0则被过滤达到去重的目的(保留第一次启动数据)②......
2024-01-23 01:04 阅读 阅读全文 文章浏览阅读335次。设备活跃数(日、周、月)增加 is_weekend 和 is_monthend 字段的意义在于将日周月三个量的计算频率保持一致,都是每天执行一次,后续如果想求完整的周活只要是 字段为 Y 就行-- 创建表drop table if exists ads_uv_count;c......
2024-01-23 08:51 阅读 阅读全文 文章浏览阅读526次。1 【数仓模块-字典构建篇】1.1 地理位置字典构建1.1.1 需求说明在埋点日志中,有用户的地理位置信息,但是原始数据形式是GPS坐标;但是GPS坐标在后续(地理位置维度分析)的分析中不好使用!直接去匹配......
2024-01-12 19:52 阅读 阅读全文 文章浏览阅读884次,点赞2次,收藏10次。数仓和业务建模对比总结1. 背景在大数据开发中,整个流程是数据采集,数据存储,数据传输,数据计算,数据展示。在这个过程中数据存储和数据计算是最关键2个环节。数据存储整体......
2024-01-23 19:07 阅读 阅读全文