GMTC全球大前端技术大会(北京站)门票9折特惠截至本周五,点击立减¥480 了解详情
写点什么

Hive 未来两年的路线图

2014 年 9 月 14 日

Hive 是一个基于 Hadoop 的数据仓库平台,它是 SQL-on-Hadoop 框架的代表项目。但是它在处理交互式查询的速度一直不够快。今年 4 月, Hortonworks 完成了 Stinger 项目的目标,不仅改进了 Hive 的功能,还将其性能提升了 100 倍。

9 月 3 日,Hortonworks宣布开始下一阶段的工作,即 Stinger.next,以便进一步扩展其功能及提升其性能。它将要实现的一些关键特性可以使 Hive 满足新的业务应用场景,包括:

  1. 支持 ACID 事务——用户将可以插入、更新和删除现有数据。Hive 将由传统的一次写入、频繁读取的系统发展为一个支持变化数据分析的系统。
  2. 实现亚秒级查询——用户可以将 Hive 用于像交互式仪表板和探究性分析这样对响应时间有更高要求的应用场景。
  3. 全面支持 SQL:2011 Analytics ——用户可以使用标准 SQL 在 Hive 上部署复杂的报表,而且更快捷、更简便、更可靠。而基于成本的、功能强大的优化器可以确保工具生成的查询和复杂查询的运行速度。届时,Hive 将在 Hadoop 上提供企业级 SQL 用户所享有的全部表达能力。它将在支持窗口函数、用户自定义函数、子查询、Rollup、Cube、标准聚集、内连接、外连接、半连接和交叉连接的基础上,增加对不等连接、集合函数(并、交、差)、时间间隔类型等的支持。

Stinger.next 计划用时 18 个月,将分三个阶段交付。事务支持将于 2014 年底发布,亚秒级查询将在 2015 年上半年推出,而对 SQL:2011 Analytics 的全面支持则将于 2015 年底完成。

此外,Hive 还将与机器学习框架 Spark 集成,使用户可以通过 Hive 运行机器学习模型。除了上述特性外,Hive 还将获得如下增强:

  • Hive Streaming Ingest 将帮助用户基于最新数据扩展运营报表;
  • Hive Cross-Geo Query 使用户可以在分布式数据集上查询和生成报表;
  • 物化视图使用户可以存储相同数据的多个视图;
  • 改进可用性;
  • 简化部署过程。

而据 Gigaom 报道,Stinger.next 的成功对于许多公司而言将不是个好消息,因为他们已经投入了大量的人力和财力,用于构建自己的 SQL-on-Hadoop 引擎,其中包括 Cloudera Impala IBM Big SQL Pivotal Greenplum 等商业产品,以及由 Salesforce.com-built 构建的 Apache Phoenix 和由 MapR 主导的 Apache Drill 等开源产品。Apache Spark 社区也正在开发自己的交互式SQL 引擎。虽然Cloudera 联合创始人兼首席战略官Mike Olson 认为Impala 比Hive 要快得多,但是,对于已使用Hive 多年的用户而言,功能不断扩展、性能不断提升的Hive 将非常有吸引力。

另一方面,Hortonworks 声称,他们的关键合作伙伴,如Microsoft、Informatica、Microstrategy 和Tableau 都将加入Stinger.next 计划。Hortonworks 将继续在速度、规模和SQL 语义方面对Hive 进行扩展。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014 年 9 月 14 日 00:584232
用户头像

发布了 256 篇内容, 共 68.2 次阅读, 收获喜欢 6 次。

关注

评论

发布
暂无评论
发现更多内容

iOS 项目避坑:多个分类中方法重复实现检测

iOSer

ios 项目管理 编程语言 iOS Document

架构师训练营第十周课后作业

Gosling

极客大学架构师训练营

美团Java面试一轮游,太激烈了,问啥啥不会,我该怎么办?

比伯

Java 编程 架构 面试 计算机

Mybatis【2.2】-- Mybatis关于创建SqlSession源码分析的几点疑问?

秦怀杂货店

Java 数据库 mybatis

10.2微服务:落地实践的策略与思路

张荣召

go-zero 如何扛住流量冲击(二)

Kevin Wan

go microservice

Linux IO模式及 select、poll、epoll详解(含部分实例源码)

linux大本营

c++ Linux 后台开发 异步IO epoll

架构师训练营3期第一周学习总结

简简单单

Mybatis【3】-- Mybatis使用工具类读取配置文件以及从属性读取DB信息

秦怀杂货店

Java 数据库 mybatis

数仓搬迁:从方法到实践,带你解决数据一致性对比

华为云开发者社区

数据仓库 数据 存储 数据校验 搬迁

多线程源码明白了吗?不明白的话来看腾讯大牛给你画的面试重点

小Q

Java 学习 架构 面试 线程

区块链技术赋能信息通信行业信用监管

CECBC区块链专委会

区块链 信用

五周 - 总结

水浴清风

阿里要求其内部程序员必须精通的并发编程笔记:原理+模式+应用

Java架构追梦

阿里巴巴 编程 面试 并发 java架构

如何应对Spark-Redis行海量数据插入、查询作业时碰到的问题

华为云开发者社区

数据库 redis spark 开源 数据

年轻人,学好Nginx,走遍天下都不怕

程序员小灰

c++ nginx Linux 服务器 架构师

架构师训练营第 10 周作业

netspecial

极客大学架构师训练营

Mybatis【2.3】-- Mybatis一定要使用commit才能成功修改数据么?

秦怀杂货店

Java 数据库 mybatis

架构师训练营第 1 期 - 第十周总结

Todd-Lee

极客大学架构师训练营

架构师训练营第 1 期 - 第十周作业

Todd-Lee

极客大学架构师训练营

让“数字鸿沟”变为“数字通途”

CECBC区块链专委会

数字化时代 支付产品

食堂就餐卡系统UML设计

简简单单

区块链创新中国价值链

CECBC区块链专委会

区块链

C语言常用错误代码释义大全,让你编译运行报错不是烦恼

ShenDu_Linux

编译原理 常见错误

Python进阶——什么是上下文管理器?

Kaito

Python

Redis面试受阻?阿里P8架构师整理出的核心笔记+实战+面试题+脑图送你

比伯

Java 编程 程序员 面试 计算机

Week 10 作业

黄立

tcp/ip协议栈——epoll的内部实现原理

Linux服务器开发

TCP/IP 后端开发 epoll 网络协议栈 服务器开发

和同事交流不会kafka怎么行,API奉上,不是大神也能编

小Q

Java 学习 架构 面试

10.7作业

张荣召

10.1微服务:服务本身的设计,维护及治理

张荣召

Hive未来两年的路线图-InfoQ