文章浏览阅读893次,点赞7次,收藏8次。依次启动如下Flink代码:”ProduceKafkaDBDataToODS.scala”、“ProduceKafkaLogDataToODS.scala”、“DimDataToHBase.scala”、“ProduceKafkaODSDataToDWD.scala”、“ProduceBrowseLogToDWS.scala”、“ProcessBrowseLogInfoToDM.scala......
2024-01-22 16:37 阅读 阅读全文文章浏览阅读924次,点赞36次,收藏31次。另一类数据是来自于用户浏览商品日志数据,此类数据在1.5章节中已经通过日志采集接口将数据采集到Kafka topic “KAFKA-USER-LOG-DATA”中,针对此topic中数据我们需要通过Flink代码进行处理,......
2024-01-22 16:37 阅读 阅读全文数据湖及湖仓一体化项目学习框架,湖仓一体电商项目(二十四):合并Iceberg小文件,湖仓一体电商项目(二十三):离线业务 统计每天用户商品浏览所获积分,big data,数据仓库,hadoop...
2024-01-22 16:34 阅读 阅读全文文章浏览阅读623次,点赞10次,收藏8次。DIM层业务代码与第一个业务处理Kafka topic “KAFKA-DIM-TOPIC” 数据到HBase代码完全一直,所以这里直接复用第一个业务中的DIM层业务代码“DimDataToHBase.scala”即可。...
2024-01-22 16:37 阅读 阅读全文文章浏览阅读2.2k次。来源:知乎 作者:十叶心全文共14108个字,建议阅读 20分钟一、基本概念1.1数仓发展历史数据湖是以集中方式存储各种类型数据,提供弹性的 容量和吞吐能力,能够覆盖广泛的数据源,支持多种计算与处理......
2024-01-23 22:31 阅读 阅读全文文章浏览阅读872次,点赞12次,收藏9次。DM层主要是报表数据,针对实时业务将DM层设置在Clickhouse中,在此业务中DM层主要存储的是通过Flink读取Kafka “KAFKA-DWS-BROWSE-LOG-WIDE-TOPIC” topic中的数据进行设置窗口分析,每隔10s设置滚动......
2024-01-22 16:37 阅读 阅读全文文章浏览阅读1.1k次,点赞28次,收藏25次。这里也可以不设置从头开始消费Kafka数据,而是直接启动实时向MySQL表中写入数据代码“RTMockDBData.java”代码,实时向MySQL对应的表中写入数据,这里需要启动maxwell监控数据,代码才能实......
2024-01-22 16:37 阅读 阅读全文文章浏览阅读2.2k次,点赞35次,收藏30次。DWS层主要是存放大宽表数据,此业务中主要是针对Kafka topic “KAFKA-DWD-BROWSE-LOG-TOPIC”中用户浏览商品日志数据关联HBase中“ODS_PRODUCT_CATEGORY”商品分类表与“ODS_PRODUCT_INFO”商品表维度数据......
2024-01-22 16:37 阅读 阅读全文本期分享的题目是B站基于Iceberg + Alluxio 助力湖仓一体项目落地实践,内容包含诸多技术细节,主要从以下4个维度进行分享: 摘要 01. B站湖仓一体项目的背景介绍 当前B站每天会有pb级的数据进入Hadoop,从而衍生......
2024-01-24 12:39 阅读 阅读全文文章浏览阅读1.6k次,点赞31次,收藏21次。使用Iceberg构建湖仓一体架构进行数据仓库分层,通过Flink操作各层数据同步到Iceberg中做到的离线与实时数据一致,当项目中有一些离线临时性的需求时,我们可以基于Iceberg各层编写SQL......
2024-01-22 16:37 阅读 阅读全文