文章浏览阅读441次。本章讲解Maven的安装配置和编译hadoop-lzo程序,为后续配置hdfs使用lzo压缩提供准备。_maven hadoop-lzo...
2024-01-12 19:54 阅读 阅读全文文章浏览阅读437次。实时数仓DWS层的定位轻度聚合,因为DWS层要应对很多实时查询,如果是完全的明细那么查询的压力是非常大的。将更多的实时数据以主题的方式组合起来便于管理,同时也能减少维度查询的次数。1. DWS层:访......
2024-01-23 12:32 阅读 阅读全文文章浏览阅读2.2k次。文章目录前置要求Hadoop集群启动Kerberos认证创建Hive系统用户和Kerberos主体启动hiveserver2Hive Kerberos认证使用说明beeline客户端DataGrip客户端新建Driver新建连接前置要求Hadoop集群启动Kerberos认证按照上述步骤为Hadoop......
2024-01-24 04:19 阅读 阅读全文文章浏览阅读509次。DWM层: 跳出明细1. 需求分析与思路1.1 什么是跳出跳出就是用户成功访问了网站的入口页面(例如首页)后就退出,不再继续访问网站的其它页面。跳出率计算公式:跳出率=访问一个页面后离开网站的次数 / 总访......
2024-01-23 12:33 阅读 阅读全文文章浏览阅读337次。一、概述埋点采集、用户行为分析、实时数仓、IdMapping此文重点讲述埋点的数据模型、数据格式、数据实时采集、加工、存储及用户关联。关于用户行为分析的概念、意义以及埋点相关的东西此文不作赘述二......
2024-01-12 19:52 阅读 阅读全文一、埋点数据基本格式公共字段:基本所有安卓手机都包含的字段 业务字段:埋点上报的字段,有具体的业务类型示例:业务字段(json格式){"ap":"xxxxx",//项目数据来源 app pc"cm": { //公共字段 "mid":......
2023-10-09 22:59 阅读 阅读全文文章浏览阅读623次。01. 架构演进离线数据仓库到实时数据仓库,从lambda架构到kappa架构、再到混合架构。本文不再多再介绍,之前文章已有深入介绍,如有兴趣可看这篇文章:02. 逻辑分层数仓分层,一般按ods->dw->dm整体架构......
2024-01-22 16:26 阅读 阅读全文一、Hadoop性能测试1. 测试HDFS写性能:向HDFS集群写10个128M的文件yexiang@hadoop2:<~>$ hadoop jar /opt/soft/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB2.测试HDFS读性能:读取HDFS集......
2023-10-09 22:59 阅读 阅读全文文章浏览阅读207次。同步策略全量:base_dic(编码字典表)、base_trademark(品牌表)、base_category3(商品三级分类表)、base_category2(商品二级分类表)、base_category1(商品一级分类表)、activity_info(活动表)、activity_shu(活动参与商品表)、activity_ru......
2024-01-23 08:52 阅读 阅读全文文章浏览阅读1.9k次。前言 最近在跟一位粉丝聊天,聊起来了做离线数仓时该用那些技术栈。于是根据我的经验和参考一些资料于就有本篇文章。在这里我会分享三个按案例,仅供参考。案例一、小型公司 首先我们......
2024-01-23 11:07 阅读 阅读全文