写点什么

Hive 未来两年的路线图

  • 2014-09-14
  • 本文字数:1193 字

    阅读完需:约 4 分钟

Hive 是一个基于 Hadoop 的数据仓库平台,它是 SQL-on-Hadoop 框架的代表项目。但是它在处理交互式查询的速度一直不够快。今年 4 月, Hortonworks 完成了 Stinger 项目的目标,不仅改进了 Hive 的功能,还将其性能提升了 100 倍。

9 月 3 日,Hortonworks宣布开始下一阶段的工作,即 Stinger.next,以便进一步扩展其功能及提升其性能。它将要实现的一些关键特性可以使 Hive 满足新的业务应用场景,包括:

  1. 支持 ACID 事务——用户将可以插入、更新和删除现有数据。Hive 将由传统的一次写入、频繁读取的系统发展为一个支持变化数据分析的系统。
  2. 实现亚秒级查询——用户可以将 Hive 用于像交互式仪表板和探究性分析这样对响应时间有更高要求的应用场景。
  3. 全面支持 SQL:2011 Analytics ——用户可以使用标准 SQL 在 Hive 上部署复杂的报表,而且更快捷、更简便、更可靠。而基于成本的、功能强大的优化器可以确保工具生成的查询和复杂查询的运行速度。届时,Hive 将在 Hadoop 上提供企业级 SQL 用户所享有的全部表达能力。它将在支持窗口函数、用户自定义函数、子查询、Rollup、Cube、标准聚集、内连接、外连接、半连接和交叉连接的基础上,增加对不等连接、集合函数(并、交、差)、时间间隔类型等的支持。

Stinger.next 计划用时 18 个月,将分三个阶段交付。事务支持将于 2014 年底发布,亚秒级查询将在 2015 年上半年推出,而对 SQL:2011 Analytics 的全面支持则将于 2015 年底完成。

此外,Hive 还将与机器学习框架 Spark 集成,使用户可以通过 Hive 运行机器学习模型。除了上述特性外,Hive 还将获得如下增强:

  • Hive Streaming Ingest 将帮助用户基于最新数据扩展运营报表;
  • Hive Cross-Geo Query 使用户可以在分布式数据集上查询和生成报表;
  • 物化视图使用户可以存储相同数据的多个视图;
  • 改进可用性;
  • 简化部署过程。

而据 Gigaom 报道,Stinger.next 的成功对于许多公司而言将不是个好消息,因为他们已经投入了大量的人力和财力,用于构建自己的 SQL-on-Hadoop 引擎,其中包括 Cloudera Impala IBM Big SQL Pivotal Greenplum 等商业产品,以及由 Salesforce.com-built 构建的 Apache Phoenix 和由 MapR 主导的 Apache Drill 等开源产品。Apache Spark 社区也正在开发自己的交互式SQL 引擎。虽然Cloudera 联合创始人兼首席战略官Mike Olson 认为Impala 比Hive 要快得多,但是,对于已使用Hive 多年的用户而言,功能不断扩展、性能不断提升的Hive 将非常有吸引力。

另一方面,Hortonworks 声称,他们的关键合作伙伴,如Microsoft、Informatica、Microstrategy 和Tableau 都将加入Stinger.next 计划。Hortonworks 将继续在速度、规模和SQL 语义方面对Hive 进行扩展。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-09-14 00:584604
用户头像

发布了 256 篇内容, 共 74.6 次阅读, 收获喜欢 10 次。

关注

评论

发布
暂无评论
发现更多内容

全国首个市场监管区块链电子取证平台正式上线

CECBC

区块链

week 9 作业

Geek_2e7dd7

LeetCode题解:70. 爬楼梯,DP遍历,变量缓存结果,JavaScript,详细注释

Lee Chen

大前端 LeetCode

JVM系列之:JIT中的Virtual Call接口

程序那些事

Java JVM JIT

MySQL 的 crash-safe 原理解析

vivo互联网技术

MySQL 数据库 开源

多线程 & 并发架构

石刻掌纹

iOS身份证号码识别

高丰

击破技术枷锁与认知迷雾 百度四大杀手锏开启新基建AI风暴

脑极体

分布式环境下,我想要一致性

架构师修行之路

分布式 分布式系统 架构师 CAP

什么样的服务器适合做APP?

德胜网络-阳

Flink x Zeppelin ,Hive Streaming 实战解析

Apache Flink

flink hive Zeppelin

厦门航空牵手阿里云打造航空业移动研发中台,研发效率提升50%

移动研发平台EMAS

简述 JVM 垃圾回收原理

一叶知秋

你不是说你会Aop吗?

Java旅途

BIGO 实时计算平台建设实践

Apache Flink

flink BIGO

设计模式

张明森

redis-port支持前缀迁移

心平气和

redis redis-port

ARTS-WEEK9

一周思进

企业玩转DevOps转型:由弱到强,只需7步

华为云开发者联盟

DevOps 软件工程 组织转型 软件开发 华为云

阿里巴巴《Java 开发手册》—嵩山版发布,附下载链接!

程序员生活志

Java 学习 阿里巴巴 手册

LG的“卷轴”柔性屏,技术可期,前景未卜?

脑极体

手把手教你实现自定义Spring Boot的 Starter

java金融

Java spring 程序员 Spring Boot starte

100% 展示 MySQL 语句执行的神器-Optimizer Trace

程序员历小冰

MySQL

两万字长文50+张趣图带你领悟网络编程的内功心法

arthinking

网络协议 TCP/IP

计算机网络基础(十二)---网络层-外部网关路由协议

书旅

计算机网络 网络 协议栈 BGP

聚焦智慧城市生活服务,百度携手贝塔智能按下“加速键”

百度大脑

人工智能 人脸识别 AR 百度大脑 智慧城市

汇付天下与阿里云合作打造企业级移动中台,运营效率提升100%

移动研发平台EMAS

区块链标准化很重要吗?

CECBC

区块链 区块链规范

3行!仅3行代码就能抓取B站(弹幕、评论、用户)数据

华为云开发者联盟

数据 B站 代码 词云图 API

week 9 学习总结

Geek_2e7dd7

ElasticSearch笔记

石刻掌纹

Hive未来两年的路线图_语言 & 开发_马德奎_InfoQ精选文章