Hadoop太老了，很多人担心它会不会到了明天就已经过时了。

五年前，Gartner研究总监就曾发文说Hadoop光环幻灭；到现在，我们看到了更多的质疑文字，认为”Hadoop气数已尽“。而这次质疑的起因是Cloudera和Hortonworks的合并，MapR的裁员。

Cloudera成立于2008年。成立以后创始人做的第一件大事，就是邀请了最初写了Hadoop 的Doug Cutting大神作为首席构架师加入。早期的Hadoop只有MapReduce和HDFS，截止2018年初有26个不同的开源项目，其中有18种是Cloudera创建的。Cloudera可称为是圈内的一家标杆企业。InfoQ编辑在探究”Hadoop到底怎么了“的问题时，联系到Cloudera并进行了采访，我们针对采访回复做出了以下解读。

被逼走向云服务？

去年10月，Cloudera 宣布与 Hortonworks 合并，计划创建首个企业数据云。

Cloudera核心CDH开源，靠出售数据治理和系统管理组件来获得商业盈利。Hortonworks完全开源，靠技术支持服务盈利。依靠这些商业模式，Cloudera的估值在顶峰时高达41亿美元，Hortonworks的估值也曾超过10亿美元。

如今，Cloudera网站首页以粗体字写着：“我们为任何数据提供企业数据云，从 Edge 到 AI ”（We deliver an Enterprise Data Cloud for any data, anywhere, from the Edge to AI）。我们可以清楚地看到焦点的转变：主打宣传文字不再是Hadoop和CDH。

Cloudera 产品营销总监Lakshmi Randall表示：”每个组织的数据都是独一无二的，是可以实现货币化的宝贵资产。根据IDC的估计，到2025年，全球数据量实现高达61%的惊人增长，总量达到175 ZB。其中将有约一半数据存储在云端，另一半则驻留在数据中心之内”，在发展企业云的同时，“Apache Hadoop将继续在众多企业的数据中心之内占据重要地位。“

Hadoop发行商衰落？被逼走向云计算？但实际上走向云计算也是自然发展而来。

Cloudera的创始人在一次访谈的时候曾提到，在创建公司时他们原本打算做的服务是类似于现在AWS的Elastic MapReduce那样的云上服务。然而很快发现这个模式太超前，所以转向了做Hadoop发行商的角色，但也”不想失去我们认为有用的EMR功能，主要是集群设置的简易性“。

在Intel投资Cloudera之后，Cloudera首席执行官也曾在2016年表示希望Intel投入10亿美元来建设云服务，希望”成为真正的云服务提供商“。

Hadoop 是一项伟大的技术，本质上是一个很好的解决方案，但也不是没有缺点，就像大多数开源软件一样。特别是在以模块化方式捆绑的情况下，在数十台、数百台或数千台机器上时也具有挑战，配置、性能优化、工具选择、维护、操作和开发都需要具有深厚的专业知识才能顺利运行。作为一项技术，它也在与一些主要云厂商竞争。云计算也在吞噬本地化部署市场。但通常云提供商只是选择了一个开源社区版本的Hadoop，产品后续在部署中的高可用性和安全性等问题，也还是需要客户自己去解决。从这点出发，Cloudera认为现在”自己是企业数据云这一新兴市场领域中的领导者“。

Lakshmi Randall表示Cloudera的企业数据云的有以下的功能特征：

立足混合及多云环境，对处于任意位置的数据进行控制、分析与试验。
从边缘到AI全面分析——利用实时数据流处理、数据仓库、数据科学以及迭代化机器学习等技术，以安全方式对任意位置的大规模数据进行跨共享数据分析。
安全与治理——以访问政策与复杂模式为基础建立一套通用型安全模型、角色与属性，立足任意云环境实现血统与起源控制。

公有云计算的出现，同时也让存储变得更加廉价。有人认为“AWS的S3替代了HDFS，K8S替代了Yarn”。在回答”未来Hadoop的几大组件是否会被公有云上的其他产品全面替代“的时候，Lakshmi Randall表示：”我们的客户希望能够在任意位置使用任何类型的数据，其中包括以Amazon S3为代表的云对象存储、Kubernetes部署的容器，或者以HDFS为代表的传统数据中心存储方案。我们认为，企业将（实际上也正在）采用包含上述全部环境的混合策略，而且这种趋势在未来仍将保持下去。“其实也在Hadoop 3.0 里，开源维护者为这个功能集做了一些大的补充，比如YARN现在支持Docker容器、TensorFlow的GPU调度等一些更高级的调度功能，也为AWS S3提供本机支持。

谁是竞争对手？

因为Cloudera和Hortonworks、MapR的变动，有人认为Hadoop领头羊已经溃不成军，但大数据领域的，例如MongoDB 数据库产品受欢迎程度一直在增长，MongoDB 现在的受欢迎指数大约是 Oracle 和 MySQL 的三分之一，而五年前只有十分之一，背后企业收入已经跃升了 78%。同样，Elasticsearch 分布式搜索和分析引擎背后的公司 Elastic 在去年员工数量翻了一番，最近一个季度的收入增长了 70%。 MongoDB 和 Elasticsearch 这样的技术挑战了Hadoop吗？

Lakshmi Randall回答说：“最苛刻的业务用例需要采用多种分析工具，包括实时流处理、数据仓库、数据科学以及跨共享数据的迭代机器学习等等。用于支持这些用例的数据库往往拥有多种表现形式，而且广泛存在于各类位置之上，涵盖公有云、内部部署以及边缘环境。Cloudera客户能够借助我们的平台立足任意位置对任何数据运行多功能分析，从而获取可为其业务提供可行性支持的重要洞察见解。虽然确实存在竞争，但这种竞争只涉及我们当前所服务的分析市场中的一小部分。”

就此问题，MongoDB社区专家唐建法也解释到：“本质上是离线处理和在线处理两个不同的方向。Hadoop的底层存储是基于无索引的HDFS，核心应用场景是对海量结构化、非结构化数据的永久存储和离线分析，例如客户肖像、流失度分析、日志分析、商业智能等。而MongoDB和Elastic的核心场景是实时交互，通常用于人机交互场景，例如电商移动应用，其特征是响应时间一般是毫秒级到秒级。”

Elastic中文社区专家杨振涛也给我们解释说：“从使用场景来看，两者是合作关系，而不是竞争关系。但是，对于小应用使用者，可能混用，从这个角度看是竞争关系。不过不是重点，重点在于合作补充”，“Elasticsearch开箱即用的特点让很多中小团队甚至大企业里相对独立的业务团队更加易于采纳，来满足比较基础的即席查询需求、在线业务检索需求甚至轻量的BI需求，这在功能上确实与 Hadoop 生态有所重合，造成了一定程度的竞争。但 Elasticsearch 以及 Elastic Stack 并不是针对 Hadoop 生态的，其自身的典型应用参考官方介绍也是集中在Logging、Metrics、Site Search、Security Analytics、APM 、App Search 以及 Google Site Search 替代方案这些方面，可以看到 Elastic Stack 旨在提供端到端的完整解决方案，而 Hadoop 生态更多是定位为平台，其上衍生出了非常多的其他产品。这是二者最大的不同，即便它们在功能上有所重合”。

专家的解释也一定程度论证了Lakshmi Randall在分析“竞争对手”上的话：“随着企业逐步实现数据与分析层面的变革性进步，特别是机器学习领域的迅猛发展，开源生态系统在过去十年当中发生了巨大的变化。Apache Hadoop将继续在众多企业的数据中心之内占据重要地位；而且由于其属于开源项目，我们能够找到大量互补性产品，例如商务智能、数据集成与数据仓库工具等等。因此，我认为Hadoop并没有多少真正的竞争对手，而拥有大量补充性解决方案。“

Cloudera的未来规划

谈及未来的产品规划/发展路线图，Lakshmi Randall表示：”今年晚些时候，我们将发布名为Cloudera Data Platform的全新云服务。这款企业级数据云产品将包含用于数据仓库、机器学习、数据流摄取以及数据库操作的一系列云原生服务。它也将成为第一款具有统一数据目录的多功能云产品，能够通过单一管理平台实现统一的安全与治理能力保障。“

创作场景

Cloudera 独家回应：Hadoop 到底怎么了？