文章浏览阅读1.6k次,点赞3次,收藏15次。数仓 用户画像1.背景在数仓开发中,主要目的就是2个,一个是基于现有数据提炼出规律和信息,一个是基于现有数据训练模型,然后预测未来的数据。用户画像属于前者,但由于画像的......
2024-01-23 19:07 阅读 阅读全文文章浏览阅读2.2k次,点赞2次,收藏12次。前言:前文说了一些数据仓库的基础概念和模型,本文继续往下说吧!【数仓】数据仓库的思考(一):https://blog.csdn.net/lsr40/article/details/1055760471、数仓的目标(能完成什么事情)当工......
2024-01-24 07:38 阅读 阅读全文一、Hadoop 支持 LZO 压缩配置前一章说了如何编译,生成的jar 名为hadoop-lzo-0.4.20.jar1. 把hadoop-lzo-0.4.20.jar 放到 hadoop2 机器中hadoop-2.7.2/share/hadoop/common/ 目录下yexiang@hadoop2:<common>$ pwd/opt/soft/hadoop-2.7.2/share/hadoop/commonyexiang@hadoop2:<co......
2023-10-09 22:59 阅读 阅读全文文章浏览阅读1.2k次。 “数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代本......
2024-01-23 11:05 阅读 阅读全文文章浏览阅读138次。资料参考博客:https://blog.csdn.net/qq_40180229/article/details/104858967链接:https://pan.baidu.com/s/1V554UcEuawYl9J7VQmEqMA提取码:506m_电商订单数据hive下载...
2024-01-23 08:52 阅读 阅读全文文章浏览阅读1k次,点赞3次,收藏21次。???? Index什么是数据倾斜数据倾斜的原因Hadoop计算框架的特点优化的常用手段优化案例???? 什么是数据倾斜我们在用hive取数的时候,有的时候只是跑一个简单的join语..._电商数仓数据倾斜...
2024-01-22 16:26 阅读 阅读全文一、Hadoop-lzo 编译hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译1. 编译环境准备maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像) gcc-c++ zlib-devel autoconf automake l......
2023-10-09 22:59 阅读 阅读全文大数据面壁者擅长代码,实时数仓,大数据相关框架,等方面的知识,大数据面壁者关注hive,集成学习,kubernetes,容器,计算机视觉,scikit-learn,神经网络,redis,推荐算法,spring,tensorflow,数据分析,机器学习,elasticsearch,ui,spark,图像处理,devops,linux,p......
2023-10-10 03:22 阅读 阅读全文文章浏览阅读221次。概述业务需求定义了企业的业务人员为了完成其工作,进而实现企业目标,一定要具备的东西。包括功能性需求和提供的服务。它是数据仓库的核心,从广度和深度上做好需求调研为数据仓库建设建立良好的......
2024-01-23 14:58 阅读 阅读全文文章浏览阅读424次。用户画像与实时数据分析是互联网企业的数据核心。知乎数据赋能团队以 Apache Doris 为基础,基于云服务构建高响应、低成本、兼顾稳定性与灵活性的实时数据架构,同时支持实时业务分析、实时算法特征、......
2024-01-23 22:29 阅读 阅读全文