对 Hadoop 目前使用情况的调查和采访

  • Boris Lublinsky
  • 孙镜涛

2013 年 12 月 19 日

话题:大数据语言 & 开发架构文化 & 方法AI

我们正生活在“大数据”的时代。在当今这个技术驱动的世界,计算能力、电子设备和 Internet 的可达性正在日益增长,同时比以往任何时候更多的数据正在被传输和收集。组织正在以惊人的速度产生数据。仅 Facebook 自己每天就会收集 250 TB 的数据。Thompson Reuters News Analytics 显示,现在数字数据的产生量比 2009 年接近 1 ZB(1 ZB 等同于一百万 PB)的量增长了两倍多,到 2015 年将有可能达到 7.9 ZB,到 2020 年则有可能会达到 35 ZB。

随着组织已经开始收集并产生大量的数据,他们也开始认识到数据分析的优势,但是他们也必须奋力地管理自己所拥有大量的信息。据Alistair Croll所说:

拥有大量数据但是没有大量线索的公司将会被虽然拥有更少的数据但是有更多线索的创业公司所取代…

这意味着除非你的业务理解它所拥有的数据,否则它将不能与理解这些数据的企业竞争。企业已经意识到:分析与商业竞争、态势感知、生产力、科学和创新相关的大数据能够获得巨大的收益。同时现在大部分公司将 Hadoop 作为自己分析大数据和掌握大数据挑战的一个主要工具。

根据 Hortonworks 的调查,Hadoop 现在已经被很多大型主流组织所部署(50% 的调查对象来自于收入超过 $500M 的组织),这些组织分布在很多行业,包括:高科技、医疗保健、零售业、金融服务、政府和制造业。

大部分情况下,Hadoop 并不会替代已有的数据处理系统,而是作为已有产品的补充。Hadoop 通常会与已有的系统互补,它挖掘额外的业务数据,同时也是一个更加强大的分析系统让你能够更好地洞察业务信息从而获得竞争优势。54% 的调查对象正在利用 Hadoop 捕获新型数据,同时还有 48% 的人打算这样做。主要的新型数据包括:

  • 服务日志数据,能够让 IT 部门更好地管理他们的基础设施(64% 的调查对象已经这样做了,同时还有 28% 正计划这样做)。
  • 点击流数据,能够让你更好地理解客户是如何使用应用程序的(52.3% 的调查对象已经这样做了,同时还有 37.4% 正计划这样做)。
  • 社交媒体数据,能够让你了解公众对公司的看法(36.5% 的调查对象已经这样做了,同时还有 32.5% 正计划这样做)。
  • 地理 / 位置数据,能够用来分析旅行模式(30.8% 的调查对象已经这样做了,同时还有 26.8% 正计划这样做)。
  • 机器数据,能够用来分析机器的使用情况(29.3% 的调查对象已经这样做了,同时还有 33.3% 正计划这样做)。

根据调查,传统数据的平均增长率大约是每年 8%,而新型数据的增长率则超过了 85%,因此离开了 Hadoop 几乎不可能收集并处理它们。

InfoQ 有幸能够与 Hortonworks 公司的市场副总裁 David McJannet 一起讨论该调查的结果。

InfoQ根据此次调查的结果,好像 Hadoop 应用的更加广泛但是深度却不够。好像越来越多的人正在开始使用 Hadoop,但是在很多情况下他们的使用仅限于大量数据的存储和对这些数据执行简单的 Hive/SQL 查询。你认为这种趋势将会继续么?

McJannet我认为 Hadoop 在某些行业中已经应用得非常深入:对于早期的采用者而言,Hadoop 是整体数据架构的基础,同时这些公司现在也已经广泛使用 Hadoop。但是在 2013 年我们发现它开始真正地扩大,这从 Hadoop Summit 的调查报告中就可以看出来。

让我们思考一下驱动采用率迅速攀升的原因,我认为至少有 3 个明确的因素:

  1. 对 Hadoop 用例有了更好的理解。实际上这一点在调查结果中有所表现,结果显示 2 个主要推动力是:(a)基于新型数据构建的新型分析系统,(b)作为整体架构的一部分管理长期增长的数据。
  2. 技术本身的快速发展继续简化了使用,同时也为大规模推广创造了条件。Hadoop 2 在很多方面都有巨大的进步,同时它还吸收了广大社区几年来的工作。
  3. 市场上的供应商拥抱该生态系统。例如,Microsoft 所做的工作允许 Excel 用户直接连接到 Hortonworks 数据平台(HDP)上拉取数据进行分析。而更加复杂的分析通常会在 SAS 这样的工具中完成,为了将 SAS 分析工具连接到 HDP 上他们作了非常深入的工作。这使得该工具的使用变得更加简单,在很多情况下最终用户甚至根本就不知道他们正在使用 Hadoop。

InfoQ你认为应用 Hadoop 的下一步是什么?你会如何定义像 Hortonworks 这样的公司或者供应商在该过程中的角色?

McJannet我看到了一个与企业使用非常一致的模式:大部分用户最初采用 Hadoop 的目的是创建一个新型分析系统——在大多数情况下是由某个行业线(例如市场营销)、或者由某个业务组推动的。在第一批项目取得成功之后,数据架构团队会意识到 Hadoop 在整个数据架构中的价值,进而将推动 Hadoop 下一阶段的使用——通常是创造一个“数据湖”或者是相似的概念。对于 Hortonworks,我认为我们的角色是让 Hadoop 市场能够运行起来:

  1. 联合该生态系统中的其他组织确保开源的 Hadoop 能够持续地在开源领域发展同时为所有人服务
  2. 提供一个真正的已经经过大规模集成和测试的企业级平台,同时合并开源社区最近的创新。
  3. 确保它与用户已有的工具和技术的集成性和互操作性。这就是为什么我们会努力工作以确保 HDP 可以与来自于 HP、Microsoft、SAP、SAS、Teradata 等公司的技术进行认证的原因——事实上,现在所有的这些合作伙伴都将 HDP 作为他们产品中的一个组件进行转售。一般来说,大多数组织所依赖的供应商依赖于 Hortonworks 针对 Hadoop 研发的相关产品,这种方式能够让整个市场更快地运行和成熟。

InfoQ尽管 Hadoop 提供了惊人的处理能力,远远超过了 SQL,但是 Hive 在 Hadoop 的使用上依然有举足轻重的地位。同时有更多的公司正在为 Hadoop 数据提供实时 SQL 查询解决方案,强调将 SQL 作为主要的 Hadoop 编程语言的声音似乎增长得更多。你认为这是一个短期现象还是一个长期趋势?

McJannet鉴于当今世界丰富的 SQL 技能,对存储在 Hadoop 中的数据进行访问时最常用的方式之一是使用 SQL 这并不稀奇。在这一方面,Apache Hive 是到目前为止 Hadoop SQL 查询领域的一个占主导地位的工具。当然,一些希望抓住这一市场机遇的专有供应商也在 Hadoop 之上推出了一些新产品,但是总的来说 Hive 是标准同时也很有可能始终都是,特别是考虑到为了继续提升 Hive 的速度、规模和 SQL 语义 Microsoft、SAP、Hortonworks 以及其他组织在 Stinger Initiative 上所做的工作。

除了 SQL 之外,还有很多其他的方式可以访问存储在 Hadoop 中的数据,但是公平一点地说,使用 SQL/Hive 将会是最主要的途径。例如,Hive 往往是所有基于 Hadoop 的 BI 工具所使用的接口。但是对于更加复杂的用例,我们确实会看到广泛使用的技术,例如 Pig(脚本查询),同时还有更加普遍的高端工具,它们所使用的接口对用户而言并不可见,例如 R 和 SAS。

随着时间的发展,最常用的接口很有可能是一个打包的应用程序(SAS、Microstrategy、Excel、业务对象、Platfora 等),最终用户根本就不需要知道底层用了什么。

InfoQ你认为 Hadoop 将会被用于构建主流企业应用程序么?大约什么时候我们才能看到这些应用程序?

McJannet毫无疑问!历史告诉我们 Web 公司是采用这些新型技术(例如现在正在发展中的 Hadoop)的先锋。这些公司已经基于 Hadoop 构建他们的主流应用程序几年了,现在我们看到主流的企业也在遵循同样的路径。

也是出于这方面的原因,我们才有了这样一个焦点:与人们已经拥有的开发技能集成。例证:.NET 开发者?.NET SDK for Hadoop 是基于开源 HDP 的。Java 开发者?Java Spring(构建 Java 应用的主要框架)的 HDP 认证将会是这个迁移的一个强力推动者。

什么时候?做这种类型的预测一直都非常难,但是我认为新生技术的转变通常会需要比预期更长的时间,同时意义也要比预期更加深远。Hadoop 技术的使用到现在已经进行了好几年,现在才真正地开始固定下来,因为事实证明它能够带来客户群的增长。作为一个供应商,我们认为我们角色中的一个非常重要的方面是:关注于技术和技能的集成从而以最及时最合理的方式推动它的发展。

查看英文原文A Survey and Interview on How Hadoop Is Used Today

大数据语言 & 开发架构文化 & 方法AI