Hive 未来两年的路线图

  • 马德奎

2014 年 9 月 14 日

话题:语言 & 开发架构

Hive 是一个基于 Hadoop 的数据仓库平台,它是SQL-on-Hadoop框架的代表项目。但是它在处理交互式查询的速度一直不够快。今年 4 月,Hortonworks 完成了 Stinger 项目的目标,不仅改进了 Hive 的功能,还将其性能提升了 100 倍。

9 月 3 日,Hortonworks宣布开始下一阶段的工作,即 Stinger.next,以便进一步扩展其功能及提升其性能。它将要实现的一些关键特性可以使 Hive 满足新的业务应用场景,包括:

  1. 支持 ACID 事务——用户将可以插入、更新和删除现有数据。Hive 将由传统的一次写入、频繁读取的系统发展为一个支持变化数据分析的系统。
  2. 实现亚秒级查询——用户可以将 Hive 用于像交互式仪表板和探究性分析这样对响应时间有更高要求的应用场景。
  3. 全面支持SQL:2011 Analytics——用户可以使用标准 SQL 在 Hive 上部署复杂的报表,而且更快捷、更简便、更可靠。而基于成本的、功能强大的优化器可以确保工具生成的查询和复杂查询的运行速度。届时,Hive 将在 Hadoop 上提供企业级 SQL 用户所享有的全部表达能力。它将在支持窗口函数、用户自定义函数、子查询、Rollup、Cube、标准聚集、内连接、外连接、半连接和交叉连接的基础上,增加对不等连接、集合函数(并、交、差)、时间间隔类型等的支持。

Stinger.next 计划用时 18 个月,将分三个阶段交付。事务支持将于 2014 年底发布,亚秒级查询将在 2015 年上半年推出,而对 SQL:2011 Analytics 的全面支持则将于 2015 年底完成。

此外,Hive 还将与机器学习框架 Spark 集成,使用户可以通过 Hive 运行机器学习模型。除了上述特性外,Hive 还将获得如下增强:

  • Hive Streaming Ingest 将帮助用户基于最新数据扩展运营报表;
  • Hive Cross-Geo Query 使用户可以在分布式数据集上查询和生成报表;
  • 物化视图使用户可以存储相同数据的多个视图;
  • 改进可用性;
  • 简化部署过程。

而据Gigaom 报道,Stinger.next 的成功对于许多公司而言将不是个好消息,因为他们已经投入了大量的人力和财力,用于构建自己的 SQL-on-Hadoop 引擎,其中包括Cloudera ImpalaIBM Big SQLPivotal Greenplum等商业产品,以及由 Salesforce.com-built 构建的Apache Phoenix和由 MapR 主导的Apache Drill等开源产品。Apache Spark 社区也正在开发自己的交互式 SQL 引擎。虽然 Cloudera 联合创始人兼首席战略官 Mike Olson 认为 Impala 比 Hive 要快得多,但是,对于已使用 Hive 多年的用户而言,功能不断扩展、性能不断提升的 Hive 将非常有吸引力。

另一方面,Hortonworks 声称,他们的关键合作伙伴,如 Microsoft、Informatica、Microstrategy 和 Tableau 都将加入 Stinger.next 计划。Hortonworks 将继续在速度、规模和 SQL 语义方面对 Hive 进行扩展。


感谢郭蕾对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

语言 & 开发架构