AICon上海「Agent与多模态解决方案专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

不同实时 Hadoop 实现之间竞争升温

  • 2013-02-27
  • 本文字数:782 字

    阅读完需:约 3 分钟

自从 Google 的 Dremel 论文发表以来,Hadoop 社区已经在尝试围绕 Hadoop 实现类似功能。首先出现的是 OpenDremel ,目前它已经是 Apache Drill 的一部分,而后者已于去年成为 Apache 孵化项目。之后,也是在去年,Cloudera 引入了 Impala ,目前仍处于 beta 状态,它还是 Cloudera Hadoop 发布版——CDH 4.1 的一部分。

Stinger Initiative 是该领域新的竞争者,由 Hortonworks 于上周引入 Apache 的孵化过程,其目标是:

让 Hive 能在人的响应时间内处理很多用例(也就是 5-30 秒这一区间范围内的查询)——如大数据的查看、可视化和参数化报表——而无需安装、维护和学习其他工具,这能够为拥有 Hive 技巧和投资的大型社区带来很多价值。

Hortonworks 打算通过以下手段实现该目标:

  • 改进 Hive 的 SQL 兼容性,包括支持 Hive 中没有的 SQL 类型和‘where’子句中的子查询。
  • 优化 Hive 的执行计划。
  • 支持新的 Hadoop 列格式 ORCFile(类似于 Dremel、Drill 和 Cloudera 的 Trevini )。
  • 引入基于 YARN 的新的运行时框架 Tez

Tez 是北印度语的“速度(speed)”,该项目还处于等待投票成为 Apache 孵化项目的阶段。它是:

……一种通用的、高度可定制的框架,用于简化 Hadoop 中数据处理任务的创建,支持小规模(低延迟)和大规模(高吞吐量)负载。通过提供为一个作业执行复杂 DAG(有向无环图)任务的能力,它将 MapReduce 范型推广为一种更强大的框架,这样 Apache Hadoop 生态系统中的项目(如 Apache Hive、Apache Pig 和 Cascading)就能满足人机交互响应时间和 PB 级规模极端吞吐量的需求了(无疑 MapReduce 是实现这一点的关键驱动因素)。

当前的三个“实时”Hadoop 查询实现——Drill、Impala 和现在的 Stinger 或是已经开源,或是很快就会开源,都将能够利用社区的支持和投入来解决实时 Hadoop 查询的重要问题。

查看英文原文 Competition between Real-time Hadoop Implementations Heats Up

2013-02-27 07:074582
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 141.8 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

内部信息流出!37天GeeLark云手机直接薅!!

kookeey代理严选

亚马逊运营 跨境电商运营 海外IP代理 Tiktok shop 指纹浏览器

中小型科技公司效率提升秘籍

伤感汤姆布利柏

AI英语口语App的开发

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语口语

我国数字经济创稳中求进

芯盾时代

数字经济

使用贪心算法解决最小生成树问题

威哥爱编程

Python 算法

分布式日志追踪ID实战

京东科技开发者

ClkLog埋点用户分析系统支持手机端查询统计数据

ClkLog

开源 数据分析 埋点 sdk 用户画像

Omnissa Secure Email Gateway 2.31 - 电子邮件网关

sysin

horizon

Ascend+FastAPI+ Uvicorn 实现推理

zjun

推理 昇腾

观测云产品更新 | 用户访问监测、应用性能监测、场景等优化

观测云

产品迭代

AI智能体在软件测试中的精准定位与缺陷预测

测试人

软件测试

Seata 源码

京东科技开发者

Cisco ACI Simulator 6.1(2g) - ACI 模拟器

sysin

ACI

分布式系统架构8:分布式缓存

卷福同学

Java redis 分布式 后端 分布式缓存

一文让你清楚的知道互联网时代数据的重要性-行云管家

行云管家

数据安全 数据智能化 数据的重要性

VMware VeloCloud SD-WAN 6.2 发布 - 领先的 SD-WAN 解决方案

sysin

velocloud

VMware Data Services Manager 2.2 发布 - 数据库管理和数据服务管理

sysin

数据库

VMware Avi Load Balancer 31.1.1 发布 - 多云负载均衡平台

sysin

负载均衡

VMware NSX 4.2.1.2 发布 - 网络安全虚拟化平台

sysin

nsx

AI英语阅读理解APP的主要功能

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语练习

大数据平台Bug Bash大扫除最佳实践

京东科技开发者

数据迁移丨借助 AI 从 PostgreSQL 到 GreatSQL

GreatSQL

不同实时Hadoop实现之间竞争升温_大数据_Boris Lublinsky_InfoQ精选文章