2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

不同实时 Hadoop 实现之间竞争升温

  • 2013-02-27
  • 本文字数:782 字

    阅读完需:约 3 分钟

自从 Google 的 Dremel 论文发表以来,Hadoop 社区已经在尝试围绕 Hadoop 实现类似功能。首先出现的是 OpenDremel ,目前它已经是 Apache Drill 的一部分,而后者已于去年成为 Apache 孵化项目。之后,也是在去年,Cloudera 引入了 Impala ,目前仍处于 beta 状态,它还是 Cloudera Hadoop 发布版——CDH 4.1 的一部分。

Stinger Initiative 是该领域新的竞争者,由 Hortonworks 于上周引入 Apache 的孵化过程,其目标是:

让 Hive 能在人的响应时间内处理很多用例(也就是 5-30 秒这一区间范围内的查询)——如大数据的查看、可视化和参数化报表——而无需安装、维护和学习其他工具,这能够为拥有 Hive 技巧和投资的大型社区带来很多价值。

Hortonworks 打算通过以下手段实现该目标:

  • 改进 Hive 的 SQL 兼容性,包括支持 Hive 中没有的 SQL 类型和‘where’子句中的子查询。
  • 优化 Hive 的执行计划。
  • 支持新的 Hadoop 列格式 ORCFile(类似于 Dremel、Drill 和 Cloudera 的 Trevini )。
  • 引入基于 YARN 的新的运行时框架 Tez

Tez 是北印度语的“速度(speed)”,该项目还处于等待投票成为 Apache 孵化项目的阶段。它是:

……一种通用的、高度可定制的框架,用于简化 Hadoop 中数据处理任务的创建,支持小规模(低延迟)和大规模(高吞吐量)负载。通过提供为一个作业执行复杂 DAG(有向无环图)任务的能力,它将 MapReduce 范型推广为一种更强大的框架,这样 Apache Hadoop 生态系统中的项目(如 Apache Hive、Apache Pig 和 Cascading)就能满足人机交互响应时间和 PB 级规模极端吞吐量的需求了(无疑 MapReduce 是实现这一点的关键驱动因素)。

当前的三个“实时”Hadoop 查询实现——Drill、Impala 和现在的 Stinger 或是已经开源,或是很快就会开源,都将能够利用社区的支持和投入来解决实时 Hadoop 查询的重要问题。

查看英文原文 Competition between Real-time Hadoop Implementations Heats Up

2013-02-27 07:074857
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 151.2 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

架构设计篇之微服务实战笔记(九)

小诚信驿站

架构师 刘晓成 小诚信驿站 28天写作

数字经济发展的时代特色

CECBC

数字经济

翻译:《实用的Python编程》03_01_Script

codists

Python

Elasticsearch Query Phase

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试 2月春节不断更

不写代码可以写爬虫程序吗?老师说可以,无编码学爬虫之一。

梦想橡皮擦

Python 28天写作 2月春节不断更

为何要构建团队契约

Bruce Talk

敏捷 Agile

「架构师训练营 4 期」 第八周 - 001&2

凯迪

架构师训练营 4 期

第十三周作业&总结

胡益

SwiftUI数据流之StateObject& ObservedObject探讨

kingnight_pig

ios swift SwiftUI

SQL Server 多表数据增量获取和发布 1

happlyfox

学习 28天写作 2月春节不断更

作业 - 第四章 业务流程与产品文档 (二)

hao hao

递归的人生哲学

Nick

数据结构 算法 递归

(28DW-S8-Day9) 区块链如何对坏节点容错:拜占庭将军问题

mtfelix

28天写作 拜占庭容错 拜占庭将军

区块链与数字货币的发展到底有什么意义

CECBC

数字货币

产品经理训练营知识汇总

SilentMacUser

产品经理 产品经理训练营 邱岳

秒杀系统的难点在哪?如何突破?

跳蚤

数据库规范设计说明书 整理

edd

架构师训练营 4 期 第9周

引花眠

架构师训练营 4 期

区块链架构下的智慧城市发展加速

CECBC

信息安全

优化JAVA代码总结

跳蚤

2.2 Go语言从入门到精通:Go语言变量

xcbeyond

变量声明 28天写作 Go 语言

SwiftUI数据流之State&Binding

kingnight_pig

ios swift SwiftUI

用例2

z

浅谈JVM 垃圾回收原理

跳蚤

dubbo 源码 v2.7 分析:SPI机制

程序员架构进阶

Java spi 七日更 28天写作 2月春节不断更

【LeetCode】单调数列Java题解

Albert

算法 LeetCode 28天写作 2月春节不断更

Java 中 Vector 和 SynchronizedList 的区别

看山

Java 线程安全 vector SynchronizedList

MySQL连接超时关闭问题解决

flyer0126

MySQL MySQL优化

并发与并行

ES_her0

28天写作

APP启动流程图

林亚超

架构师训练营第八周作业 - 命题作业

阿德儿

不同实时Hadoop实现之间竞争升温_大数据_Boris Lublinsky_InfoQ精选文章