写点什么

对 Hadoop 目前使用情况的调查和采访

  • 2013-12-19
  • 本文字数:3193 字

    阅读完需:约 10 分钟

我们正生活在“大数据”的时代。在当今这个技术驱动的世界,计算能力、电子设备和 Internet 的可达性正在日益增长,同时比以往任何时候更多的数据正在被传输和收集。组织正在以惊人的速度产生数据。仅 Facebook 自己每天就会收集 250 TB 的数据。Thompson Reuters News Analytics 显示,现在数字数据的产生量比 2009 年接近 1 ZB(1 ZB 等同于一百万 PB)的量增长了两倍多,到 2015 年将有可能达到 7.9 ZB,到 2020 年则有可能会达到 35 ZB。

随着组织已经开始收集并产生大量的数据,他们也开始认识到数据分析的优势,但是他们也必须奋力地管理自己所拥有大量的信息。据 Alistair Croll 所说:

拥有大量数据但是没有大量线索的公司将会被虽然拥有更少的数据但是有更多线索的创业公司所取代…

这意味着除非你的业务理解它所拥有的数据,否则它将不能与理解这些数据的企业竞争。企业已经意识到:分析与商业竞争、态势感知、生产力、科学和创新相关的大数据能够获得巨大的收益。同时现在大部分公司将 Hadoop 作为自己分析大数据和掌握大数据挑战的一个主要工具。

根据 Hortonworks 的调查,Hadoop 现在已经被很多大型主流组织所部署(50% 的调查对象来自于收入超过 $500M 的组织),这些组织分布在很多行业,包括:高科技、医疗保健、零售业、金融服务、政府和制造业。

大部分情况下,Hadoop 并不会替代已有的数据处理系统,而是作为已有产品的补充。Hadoop 通常会与已有的系统互补,它挖掘额外的业务数据,同时也是一个更加强大的分析系统让你能够更好地洞察业务信息从而获得竞争优势。54% 的调查对象正在利用 Hadoop 捕获新型数据,同时还有 48% 的人打算这样做。主要的新型数据包括:

  • 服务日志数据,能够让 IT 部门更好地管理他们的基础设施(64% 的调查对象已经这样做了,同时还有 28% 正计划这样做)。
  • 点击流数据,能够让你更好地理解客户是如何使用应用程序的(52.3% 的调查对象已经这样做了,同时还有 37.4% 正计划这样做)。
  • 社交媒体数据,能够让你了解公众对公司的看法(36.5% 的调查对象已经这样做了,同时还有 32.5% 正计划这样做)。
  • 地理 / 位置数据,能够用来分析旅行模式(30.8% 的调查对象已经这样做了,同时还有 26.8% 正计划这样做)。
  • 机器数据,能够用来分析机器的使用情况(29.3% 的调查对象已经这样做了,同时还有 33.3% 正计划这样做)。

根据调查,传统数据的平均增长率大约是每年 8%,而新型数据的增长率则超过了 85%,因此离开了 Hadoop 几乎不可能收集并处理它们。

InfoQ 有幸能够与 Hortonworks 公司的市场副总裁 David McJannet 一起讨论该调查的结果。

InfoQ根据此次调查的结果,好像 Hadoop 应用的更加广泛但是深度却不够。好像越来越多的人正在开始使用 Hadoop,但是在很多情况下他们的使用仅限于大量数据的存储和对这些数据执行简单的 Hive/SQL 查询。你认为这种趋势将会继续么?

McJannet我认为 Hadoop 在某些行业中已经应用得非常深入:对于早期的采用者而言,Hadoop 是整体数据架构的基础,同时这些公司现在也已经广泛使用 Hadoop。但是在 2013 年我们发现它开始真正地扩大,这从 Hadoop Summit 的调查报告中就可以看出来。

让我们思考一下驱动采用率迅速攀升的原因,我认为至少有 3 个明确的因素:

  1. 对 Hadoop 用例有了更好的理解。实际上这一点在调查结果中有所表现,结果显示 2 个主要推动力是:(a)基于新型数据构建的新型分析系统,(b)作为整体架构的一部分管理长期增长的数据。
  2. 技术本身的快速发展继续简化了使用,同时也为大规模推广创造了条件。Hadoop 2 在很多方面都有巨大的进步,同时它还吸收了广大社区几年来的工作。
  3. 市场上的供应商拥抱该生态系统。例如,Microsoft 所做的工作允许 Excel 用户直接连接到 Hortonworks 数据平台(HDP)上拉取数据进行分析。而更加复杂的分析通常会在 SAS 这样的工具中完成,为了将 SAS 分析工具连接到 HDP 上他们作了非常深入的工作。这使得该工具的使用变得更加简单,在很多情况下最终用户甚至根本就不知道他们正在使用 Hadoop。

InfoQ你认为应用 Hadoop 的下一步是什么?你会如何定义像 Hortonworks 这样的公司或者供应商在该过程中的角色?

McJannet我看到了一个与企业使用非常一致的模式:大部分用户最初采用 Hadoop 的目的是创建一个新型分析系统——在大多数情况下是由某个行业线(例如市场营销)、或者由某个业务组推动的。在第一批项目取得成功之后,数据架构团队会意识到 Hadoop 在整个数据架构中的价值,进而将推动 Hadoop 下一阶段的使用——通常是创造一个“数据湖”或者是相似的概念。对于 Hortonworks,我认为我们的角色是让 Hadoop 市场能够运行起来:

  1. 联合该生态系统中的其他组织确保开源的 Hadoop 能够持续地在开源领域发展同时为所有人服务
  2. 提供一个真正的已经经过大规模集成和测试的企业级平台,同时合并开源社区最近的创新。
  3. 确保它与用户已有的工具和技术的集成性和互操作性。这就是为什么我们会努力工作以确保 HDP 可以与来自于 HP、Microsoft、SAP、SAS、Teradata 等公司的技术进行认证的原因——事实上,现在所有的这些合作伙伴都将 HDP 作为他们产品中的一个组件进行转售。一般来说,大多数组织所依赖的供应商依赖于 Hortonworks 针对 Hadoop 研发的相关产品,这种方式能够让整个市场更快地运行和成熟。

InfoQ尽管 Hadoop 提供了惊人的处理能力,远远超过了 SQL,但是 Hive 在 Hadoop 的使用上依然有举足轻重的地位。同时有更多的公司正在为 Hadoop 数据提供实时 SQL 查询解决方案,强调将 SQL 作为主要的 Hadoop 编程语言的声音似乎增长得更多。你认为这是一个短期现象还是一个长期趋势?

McJannet鉴于当今世界丰富的 SQL 技能,对存储在 Hadoop 中的数据进行访问时最常用的方式之一是使用 SQL 这并不稀奇。在这一方面,Apache Hive 是到目前为止 Hadoop SQL 查询领域的一个占主导地位的工具。当然,一些希望抓住这一市场机遇的专有供应商也在 Hadoop 之上推出了一些新产品,但是总的来说 Hive 是标准同时也很有可能始终都是,特别是考虑到为了继续提升 Hive 的速度、规模和 SQL 语义 Microsoft、SAP、Hortonworks 以及其他组织在 Stinger Initiative 上所做的工作。
除了 SQL 之外,还有很多其他的方式可以访问存储在 Hadoop 中的数据,但是公平一点地说,使用 SQL/Hive 将会是最主要的途径。例如,Hive 往往是所有基于 Hadoop 的 BI 工具所使用的接口。但是对于更加复杂的用例,我们确实会看到广泛使用的技术,例如 Pig(脚本查询),同时还有更加普遍的高端工具,它们所使用的接口对用户而言并不可见,例如 R 和 SAS。
随着时间的发展,最常用的接口很有可能是一个打包的应用程序(SAS、Microstrategy、Excel、业务对象、Platfora 等),最终用户根本就不需要知道底层用了什么。

InfoQ你认为 Hadoop 将会被用于构建主流企业应用程序么?大约什么时候我们才能看到这些应用程序?

McJannet毫无疑问!历史告诉我们 Web 公司是采用这些新型技术(例如现在正在发展中的 Hadoop)的先锋。这些公司已经基于 Hadoop 构建他们的主流应用程序几年了,现在我们看到主流的企业也在遵循同样的路径。

也是出于这方面的原因,我们才有了这样一个焦点:与人们已经拥有的开发技能集成。例证:.NET 开发者?.NET SDK for Hadoop 是基于开源 HDP 的。Java 开发者?Java Spring(构建 Java 应用的主要框架)的 HDP 认证将会是这个迁移的一个强力推动者。
什么时候?做这种类型的预测一直都非常难,但是我认为新生技术的转变通常会需要比预期更长的时间,同时意义也要比预期更加深远。Hadoop 技术的使用到现在已经进行了好几年,现在才真正地开始固定下来,因为事实证明它能够带来客户群的增长。作为一个供应商,我们认为我们角色中的一个非常重要的方面是:关注于技术和技能的集成从而以最及时最合理的方式推动它的发展。

查看英文原文 A Survey and Interview on How Hadoop Is Used Today

2013-12-19 09:342949
用户头像

发布了 321 篇内容, 共 131.5 次阅读, 收获喜欢 19 次。

关注

评论

发布
暂无评论
发现更多内容

5W1H聊开源之What——开源是什么?

禅道项目管理

开源 软件 开发

踩准时钟节拍、玩转时间转换,鸿蒙轻内核时间管理有妙招

华为云开发者联盟

鸿蒙 时间管理 计数器 时间转换 计时

亮相Google I/O,字节跳动是这样应用Flutter的

字节跳动技术团队

C 语言数据结构的封装方法

实力程序员

react源码解析5.jsx&核心api

全栈潇晨

React React Hooks

裕民银行 x mPaaS | 移动应用“适老化”改造,可不止是字体变大

蚂蚁集团移动开发平台 mPaaS

移动开发 mPaaS APP开发

anyRTC Web SDK 实现音视频呼叫功能

anyRTC开发者

音视频 WebRTC RTC sdk

超超超超级详细的多边形游戏问题分析(动态规划)

若尘

算法 动态规划 6月日更

详解浏览器跨域访问的几种办法

华为云开发者联盟

安全 浏览器 跨域 WEB安全 跨域访问

ETL工程师必看!超实用的任务优化与断点执行方案

敏捷调度TASKCTL

大数据 ETL算法 ETL ETL任务 ETL系统

5分钟速读之Rust权威指南(十六)

wzx

rust

【Vue2.x 源码学习】第三篇 - 对象的单层劫持

Brave

源码 vue2 6月日更

Golang Testing 概览 - 基本篇

hedzr

Unit Test testing Go 语言

有点难的知识点:Webpack Chunk 分包规则详解

范文杰

webpack 6月日更

【Flutter 专题】113 图解自定义 ACEPieWidget 饼状图 (二)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 6月日更

C++多线程强制终止

华为云开发者联盟

c++ 安全 线程 多线程 可信

《开源 PassJava》1、项目介绍

悟空聊架构

开源 面试 刷题 spring cloud alibaba 6月日更

记一次K8s排错实战

雪雷

k8s 6月日更

最近打算重新写一遍爬虫“指北”

IT蜗壳-Tango

IT蜗壳教学 6月日更

PMP-项目管理标准

索隆

pmp 6月日更

6000年,看懂了「硬核山东」!

云计算

分库分表 vs NewSQL 数据库

xcbeyond

分库分表 6月日更

🏆【声网Agora】「WebRTC-如何搭建语音认证服务」

码界西柚

WebRTC RTC征文大赛 Agora 6月日更

【LeetCode】连续数组Java题解

Albert

算法 LeetCode 6月日更

Dubbo 线程池模型

青年IT男

dubbo

傲腾持久内存如何为数据赋能,加速应用落地?

白玉兰开源

人工智能 英特尔 傲腾

如履薄冰--亚马逊直运系统重构实录

蔡超

软件架构 软件重构 软件自动化测试

【通俗易懂】JWT-使用的可能正确姿势

蛋先生DX

JWT 6月日更

获5项大奖,发布《云计算开放应用架构标准》,阿里云持续领航云原生

阿里巴巴中间件

华云大咖说 | 安超OS全面升级 最新亮点解密

华云数据

音视频学习--弱网对抗技术相关实践

Fenngton

音视频 网络 视频编解码 弱网下的极限实时视频通信 实时视频

对Hadoop目前使用情况的调查和采访_大数据_Boris Lublinsky_InfoQ精选文章