hive优化-CSDN博客

网站介绍:文章浏览阅读2.2k次。1、使用分区表和分桶表2、使用count(1),不使用count(*)3、指定明确字段,不使用select * from emp4、使用特殊的存储格式 列式存储: orc parquet5、小表 join 大表,避免笛卡尔积6、开启map端聚合,默认是打开的7、避免 count (distinct 字段)8、适当调整maptask和reducetask个数9、测试数据时,使用本地模式set mapreduce.framework.name=yarn(默认)set mapr