文章浏览阅读2.2k次。1、使用分区表和分桶表2、使用count(1),不使用count(*)3、指定明确字段,不使用select * from emp4、使用特殊的存储格式 列式存储: orc parquet5、小表 join 大表,避免笛卡尔积6、开启map端聚合,默认是打开的7......
2024-01-22 16:30 阅读 阅读全文文章浏览阅读197次。一 架构优化1.1 执行引擎hive执行引擎: MapReduce、Tez、Spark、Flink在hive-site.xml中hive.execution.engine属性控制1.2 优化器与关系型数据库类似,Hive会在真正执行计算之前,生成和优化逻辑执行计划与物理执行计划Hive......
2024-01-22 22:36 阅读 阅读全文文章浏览阅读208次。hive的优化:(1)使用mapjoin①mapjoin的原理是把小表加载到内存中在map端进行join,避免reduce处理②多大的表被视为小表呢?默认是25M以下是小表,通过配置参数set hive.mapjoin.smalltable.filesize=25000000③如何开启mapj......
2024-01-22 20:34 阅读 阅读全文文章浏览阅读484次。小文件产生的原因直接向表里面插入数据比如我们要往一张表里面写入几行特定的数据,如下,每次运行都会往表里写入一个文件,这种一般生产很少见,因为这种操作一般说在位置的时候采用,如果有也是......
2024-01-22 21:07 阅读 阅读全文开发实战角度:distinct实现原理及具体优化总结,企业实战总结:SQL Join执行的常见问题及解决方案,含泪整理的超全窗口函数:数据开发必备,Hive安装,hive配置,在linux中安装配置hive...
2024-01-22 16:40 阅读 阅读全文文章浏览阅读869次。SparkSQL的优化:(Spark on Hive)(1)内存优化①合理设置资源配置–num-executors executor的个数–executor-memory 每个executor的内存–driver-memory Driver端的内存②DS和DF的缓存持久化DS和DF默认的缓存级别是MEMORY_AND_DISK......
2024-01-22 20:34 阅读 阅读全文文章浏览阅读1.4k次,点赞5次,收藏9次。注:本计算方法原创来源于:https://blog.csdn.net/hweinifengkuang/article/details/92832309建测试表CREATE TABLE `user_login_table`( `user_id` int COMMENT '用户ID', `login_date` date COMMENT '登录日期') 插入1000条测试......
2024-01-23 03:06 阅读 阅读全文