文章浏览阅读4.9k次。如果数据量大,维度多,用keyBy并不方便,建议写到外部实时数仓里,Clickhouse擅长实时查询,flink擅长实时处理。一、多维度复杂统计(使用Clickhouse)使用是clickhouse的ReplacingMergeTree,可以将同一个分区中,I......
2024-01-22 16:30 阅读 阅读全文文章浏览阅读1k次。主要是增加数据计算的复用性。每次新增加统计需求时,不至于从原始数据进行计算,而是从半成品继续加工而成。整合企业业务数据,建立统一的数据中心;产生业务报表,了解企业的经营状况;为企业运......
2024-01-21 12:55 阅读 阅读全文文章浏览阅读183次。By 数据仓库与Python大数据场景描述:今年有个现象,实时数仓的建设突然就被大家所关注。我个人在公众号也写过和转载过几篇关于实时数据仓库建设的文章和方案。对于实时数仓..._数据仓库app层选择 redis h......
2024-01-22 16:26 阅读 阅读全文文章浏览阅读526次。概述随着数据仓库的开发,ETL作业会越来越多,怎么把这些作业有序的运行起来,就需要一个健壮的调度系统来保证数据能够准确、及时的提供给BI应用程序。调度系统设计目标调度系统架构ETL作业数据仓库......
2024-01-23 14:57 阅读 阅读全文文章浏览阅读293次。数仓2021 年 1月份,给大家重点分享一下离线数仓与实时数仓的内容。今天,我们先了解一下数据仓库架构的演变过程,本文主要从五个方面进行介绍 数据仓库概念 离线大数据架构 Lambda 架构 Kappa 架构 ......
2024-01-23 04:35 阅读 阅读全文文章浏览阅读504次。目录日志生成集群日志生成启动脚本日志生成下载之后直接打包链接:https://pan.baidu.com/s/11fBCXFVTqIJtUqMSrhZUng 提取码:mm1j记得改为主方法的全类名日志生成之后 会在/tmp/logs下储存1.将 生 成 的 jar 包 logcollector-1......
2024-01-12 19:54 阅读 阅读全文文章浏览阅读91次。资料参考博客:https://blog.csdn.net/qq_40180229/article/details/104843630链接:https://pan.baidu.com/s/1dmr6cUe4fo6IcXH_9X1oNw提取码:7w1b修改配置文件// 在/opt/module/sqoop-1.4.7/conf 目录下,重命名配置文件[scorpion@warehouse102 conf]$ mv sqo......
2024-01-23 08:52 阅读 阅读全文森橙科技擅长DB技术&&数仓技术,java后台技术栈,c++/go后台技术栈,等方面的知识...
2023-10-11 21:37 阅读 阅读全文文章浏览阅读9.7k次,点赞14次,收藏106次。第1章 电商业务与数据结构简介1.1 电商业务流程1.2 电商表结构电商业务流程1.2.1 电商常识(SKU、SPU)SKU=Stock Keeping Unit(库存量单位)。即库存进出计量的基本单元,可以是以件,盒,......
2024-01-12 19:54 阅读 阅读全文文章浏览阅读3k次,点赞7次,收藏18次。前言 维度缓慢变化为SCD(Slowly Changing Dimensions)一些维度表的数据不是静态的,而是会随着时间而缓慢地变化(这里的缓慢是相对事实表而言,事实表数据变化的速度比维度表快,......
2024-01-23 11:05 阅读 阅读全文