文章浏览阅读462次。文章目录主流埋点方式(了解)代码埋点(前端/后端)可视化埋点全埋点埋点数据上报时机埋点数据日志结构主流埋点方式(了解)目前主流的埋点方式,有代码埋点(前端/后端)、可视化埋点、全埋点三......
2024-01-12 19:52 阅读 阅读全文文章浏览阅读1.1k次。1 DWM层与DWS层的设计思路1.1 设计思路用户行为日志:模拟日志jar -> nginx -> web日志服务器 -> kafka(ods_base_log) -> flink(BaseLogApp) -分流-> kafka(dwd_page_log|dwd_start_log|dwd_display_log) ->接下来要对数据做简单......
2024-01-22 20:34 阅读 阅读全文文章浏览阅读127次。资料参考博客:https://blog.csdn.net/qq_40180229/article/details/108755530链接:https://pan.baidu.com/s/1LoAqJ3HjEK6gFOTmzXdiSA提取码:kvbd删除原有MySQL[scorpion@warehouse102 07_mysql]$ rpm -qa | grep -i -E mysql\|mariadb | xargs -n1 sudo rpm -e --nodeps[s......
2024-01-23 08:53 阅读 阅读全文文章浏览阅读500次。1 埋点数据基本格式公共字段:基本所有手机都包含的字段 业务字段:埋点上报字段,有具体的业务类型ps:一般使用json格式json格式示例:{"ap":"xxxxx",//产品字段 app key"cm":{ //公共字段 ......
2024-01-12 19:52 阅读 阅读全文文章浏览阅读304次。1 电商业务简介1.1 电商业务流程1.2 电商常识SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。SPU(Standard Product Unit):是商品信息聚合的最小单......
2024-01-22 20:34 阅读 阅读全文文章浏览阅读727次。1.为什么做电商数仓 数据越来越多,我们把各部门的数据收集到一起,通过分析,计算等转化成对我们公司有价值的数据,为我们公司做决策提供一个数据支持.2.技术架构 日志数据:我们通过flume采集埋点的日......
2024-01-12 19:50 阅读 阅读全文文章浏览阅读242次。数仓整体说明:1.1使用到的技术使用flume进行数据采集,hdfs为存储平台,hive进行操作,sparksql为技术引擎,yarn作为资源调度平台,rookeeper为任务调度平台,altas管理元数据,1.2分层设计ADS为服务层DWD为数仓汇总层,ODS详细......
2024-01-24 08:14 阅读 阅读全文文章浏览阅读951次。1 数仓分层1.1 为什么要分层?(1)把复杂的问题简单化把复杂的任务分解为多层完成,方便定位问题~少写了很多复杂的sql(2)减少重复开发规范数据分层,通过中间数据,可以减少极大的重复计算,增加复......
2024-01-22 20:34 阅读 阅读全文文章浏览阅读3.3k次。看了一些其他文章,有说定义的,有画图的,其中也不乏有一些很不错的文章但是其实没有一个统一的概念说明元数据管理的边界应该是什么,所以大家的做法会有所不同,有些元数据管理还会把数据质量......
2024-01-24 07:38 阅读 阅读全文文章浏览阅读1.7k次。☞ETL同步之道 [ Sqoop、DataX、Kettle、Canal、StreamSets ] ☞ETL之技术栈 [ 重工具 vs 开发语言 ] ☞ETL加载策略 [ Merge、Delta、拉链 ]ETL工具或类ETL的数据集成同步工具或语言,企业生产中工具也非常之多,主流的etl......
2024-01-24 20:55 阅读 阅读全文