hive优化-CSDN博客网友收藏

hive优化-CSDN博客

文章浏览阅读2.2k次。1、使用分区表和分桶表2、使用count(1),不使用count(*)3、指定明确字段,不使用select * from emp4、使用特殊的存储格式 列式存储: orc parquet5、小表 join 大表,避免笛卡尔积6、开启map端聚合,默认是打开的7......
阅读全文
hive优化-CSDN博客网友收藏

hive优化-CSDN博客

文章浏览阅读197次。一 架构优化1.1 执行引擎hive执行引擎: MapReduce、Tez、Spark、Flink在hive-site.xml中hive.execution.engine属性控制1.2 优化器与关系型数据库类似,Hive会在真正执行计算之前,生成和优化逻辑执行计划与物理执行计划Hive......
阅读全文
Hive优化总结-CSDN博客网友收藏

Hive优化总结-CSDN博客

文章浏览阅读208次。hive的优化:(1)使用mapjoin①mapjoin的原理是把小表加载到内存中在map端进行join,避免reduce处理②多大的表被视为小表呢?默认是25M以下是小表,通过配置参数set hive.mapjoin.smalltable.filesize=25000000③如何开启mapj......
阅读全文
【Hive SQL 新算法】求任意时间段连续登录N天用户数/用户明细/最长连续登陆天数/用户留存率问题总结_hivesql 活跃留存优化计算方法-CSDN博客网友收藏

Hive SQL 新算法】求任意时间段连续登录N天用户数/用户明细/最长连续登陆天数/用户留存率问题总结_hivesql 活跃留存优化计算方法-CSDN博客

文章浏览阅读1.4k次,点赞5次,收藏9次。注:本计算方法原创来源于:https://blog.csdn.net/hweinifengkuang/article/details/92832309建测试表CREATE TABLE `user_login_table`( `user_id` int COMMENT '用户ID', `login_date` date COMMENT '登录日期') 插入1000条测试......
阅读全文