文章浏览阅读648次。数据同步工具datax也有集群模式了,现在性能应该还好。sqoop就是调度了map任务集群加机器了记得要在数据库那边加入白名单Flume几十上百台日志服务器的话,直接往hdfs上写也不现实,一般会做两层flume,第二......
2024-01-22 16:23 阅读 阅读全文文章浏览阅读237次。建表-- 订单表(增量及更新)-- hive (gmall)>drop table if exists ods_order_info;create external table ods_order_info ( `id` string COMMENT '订单号', `final_total_amount` decimal(16,2) COMMENT '订单金额', `order_status` string COMMENT '订单......
2024-01-23 08:51 阅读 阅读全文文章浏览阅读174次。创建日志表ods_log-- ODS创建日志表ods_logdrop table if exists ods_log; -- 创建表存在先删除CREATE EXTERNAL TABLE ods_log (`line` string) -- 创建外部表,字段就是jsonPARTITIONED BY (`dt` string) -- 按照时间创建分区STORED AS -- 指定存储......
2024-01-23 08:51 阅读 阅读全文文章浏览阅读1.7k次,点赞5次,收藏15次。一、数仓建设步骤及宏观逻辑1.1 范式1.2 常见的数仓建模方法1.3 维度建模的步骤二、事实表技术概念2.1 事实表结构2.2 可加、半可加、不可加事实2.3 常见的事实表三、维度表技术概念3.1 ......
2024-01-23 15:27 阅读 阅读全文文章浏览阅读888次。数仓 DW层 用户留存分析主题1. 背景在app运营和产品设计中,一般都是拉新和留存2个最关键指标来衡量对用户的吸引力程度。拉新,顾名思义, 拉新用户进来留存,顾名思义,让用户留下来,这里面有老用户......
2024-01-23 19:05 阅读 阅读全文文章浏览阅读1.1k次。数仓 建模思想之星型模型、雪花模型、星座模型1. 背景在大数据开发中,数据一般是分为事实表,维度表,实体表等表。事实表顾名思义就是记录实际发生的事情如订单表,优惠券使用表等等。维度表,顾......
2024-01-23 19:07 阅读 阅读全文文章浏览阅读888次。数仓 DW层 用户留存分析主题1. 背景在app运营和产品设计中,一般都是拉新和留存2个最关键指标来衡量对用户的吸引力程度。拉新,顾名思义, 拉新用户进来留存,顾名思义,让用户留下来,这里面有老用户......
2024-01-23 19:07 阅读 阅读全文文章浏览阅读437次。1 需求分析及实现思路1.1 分层需求分析1.1.1 实时数仓为什么要分层?建设实时数仓的目的,主要是为了增加数据计算的复用性。每次新增加统计需求时,不至于从原始数据进行计算,而是从半成品继续加工而......
2024-01-22 20:34 阅读 阅读全文文章浏览阅读473次。7 sparkStreaming实时数仓总结1、SparkStreaming实时数仓用到的存储介质都干啥事了--实时数仓中存储介质都干了些啥?1. redis 64G①存mid到set集合,重复的mid返回0则被过滤达到去重的目的(保留第一次启动数据)②......
2024-01-23 01:04 阅读 阅读全文文章浏览阅读473次。7 sparkStreaming实时数仓总结1、SparkStreaming实时数仓用到的存储介质都干啥事了--实时数仓中存储介质都干了些啥?1. redis 64G①存mid到set集合,重复的mid返回0则被过滤达到去重的目的(保留第一次启动数据)②......
2024-01-23 01:04 阅读 阅读全文