大数据之SparkSQL 完整使用 (第八章)-CSDN博客

网站介绍:文章浏览阅读705次。SparkSQL 的前身是 Shark,给熟悉 RDBMS 但又不理解 MapReduce 的技术人员提供快速上手的工具。Hive 是早期唯一运行在 Hadoop 上的 SQL-on-Hadoop 工具。但是 MapReduce 计算过程中大量的中间磁盘落地过程消耗了大量的 I/O,降低的运行效率,为了提高 SQL-on-Hadoop的效率,大量的 SQL-on-Hadoop 工具开始产生,其中表现较为突出的是:⚫ Drill⚫ Impala⚫ Shark其中 Shark 是伯克利实验室 S