文章浏览阅读2.1k次,点赞3次,收藏21次。1.数仓建模的理由数据建模的主要目的是降低成本,提高数据的利用效率。尤其是大数据时代的到来,数据的多样化,巨量,更需要有效的有针对性数据建模方法。大数据的数仓建模正是......
2024-01-23 22:31 阅读 阅读全文文章浏览阅读238次。资料链接:https://pan.baidu.com/s/19TqiPAfDwaMYGjtbbNW-Sw提取码:niuo创建数据库导入数据库结构脚本生成业务数据// 在 /opt/module/ 目录下创建dblog文件夹[scorpion@warehouse102 module]$ mkdir dblog// 把gmall2020-mock-db-2020-04-01.jar和ap......
2024-01-23 08:53 阅读 阅读全文文章浏览阅读1.2k次。【学习笔记】尚硅谷大数据项目之Flink实时数仓---数据可视化接口实现_尚硅谷大数据...
2024-01-22 17:47 阅读 阅读全文一、数据仓库概念数据仓库(Data Warehouse)是为企业所有决策制定过程,提供所有系统数据支持的战略集合 通过对数据仓库中数据的分析可以帮助企业,改进业务流程、控制成本、提供产品质量等 数据仓库,并不是数据的最终......
2023-10-09 22:59 阅读 阅读全文文章浏览阅读101次。六星教育-java-mysql优化1909单表超过2000w的数据 ,要求 在不停服务的情况下怎么优化切忌: 不要上来就说,对常用字段建立索引优化最为重要的点就是 -> 定位需要优化的数据在哪里(扫描磁盘,快速读取到数据......
2024-01-23 19:17 阅读 阅读全文文章浏览阅读2.3w次,点赞6次,收藏66次。一、数据仓库分层ODS层:原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理DWD层:对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据)、维度......
2024-01-23 12:28 阅读 阅读全文一、FastJson 框架JSON对象: {"属性名":"属性值","属性名":"属性值","数组":[]} JSON数组: [{},{},{}] FastJson是阿里巴巴的框架,用的是JSONObject类看出JSONObject 类用的是 Map进行存放public JSONObject(Map<S......
2023-10-09 22:59 阅读 阅读全文文章浏览阅读232次。离线数仓中的lzo索引Q1:ODS层怎样设计的? (1)首先数据由Flume(hdfsSink)采集到HDFS上的 ① 此时指定了原始数据上传的路径hdfs.path ② 文件头信息hdfs.filePrefix ③ 是否滚动生成文件hdfs.round ④ 输出......
2024-01-22 20:34 阅读 阅读全文文章浏览阅读620次。电商数仓(架构设计、用户行为数据生成脚本)写在前面: 本文是我在学习电商数仓项目的过程中,对相关知识点的记录,总结。1. 数据仓库的概念数据仓库,英文名称为 Data Warehouse ,可简写为 DW 或 DWH。数据......
2024-01-23 16:34 阅读 阅读全文文章浏览阅读1.6k次,点赞3次,收藏15次。数仓 用户画像1.背景在数仓开发中,主要目的就是2个,一个是基于现有数据提炼出规律和信息,一个是基于现有数据训练模型,然后预测未来的数据。用户画像属于前者,但由于画像的......
2024-01-23 19:05 阅读 阅读全文