CDH集群使用spark作为hive查询引擎(实时查询)_hive不擅长实时交互, 那数据仓库中的数据如何让用户实时查询-CSDN博客

网站介绍:文章浏览阅读1.5k次。Hive我们用来搭建数仓,对于大量数据以及离线数仓,可以满足,但是他不能满足实时查询的情况,如果这次客户来了个需求,不在我们统计分析的指标内。那你单独写SQL,然后通过mr底层,就不能立刻出结果,运行sql和统计将消耗大量时间。当然有多种方案(impala+kudu)(presto)都可以。我在CDH上使用,自己的虚拟机测试,避免搭建与启动内存过大,所以采用了spark。..._hive不擅长实时交互, 那数据仓库中的数据如何让用户实时查询