最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

谁在“谋杀” Hadoop?

  • 2019-07-02
  • 本文字数:4577 字

    阅读完需:约 15 分钟

谁在“谋杀” Hadoop?

近日,Hadoop 领域发生几件不太美好的事情,先是 MapR 宣布如果无法获得新的投资,就必须要裁员百余人,并关闭硅谷总部,再是 Cloudera 股价暴跌 43%,估值缩水。眼看 Hadoop 三大商业公司起高楼,为何忽然之间楼斜了呢?为了搞清楚其中原因,我们采访了多位行业内的技术专家。


十年前,出世两年的 Hadoop 顺利通过孵化器成为了 Apache 顶级项目,同年,第一个 Hadoop 商业化公司 Cloudera 成立;五六年前,简直就是 Hadoop 的主场,社区不断建立的新组件来扩展 Hadoop 的应用场景和可用性,其中有很多组件都成功脱离 Hadoop 成为了 Apache 顶级项目,例如 HBase、Hive、ZooKeeper 等。


但是最近剧情反转的有点让人猝不及防,上上周,美股开盘之后,Cloudera 股价暴跌 43%,曾经 41 亿美元的估值缩水为 14 亿美元;上上上周,外媒爆料曾经估值 10 亿美元的 MapR 向加州就业发展局提交文件,称如果找不到新的投资人,公司将裁员 122 人。

抱团取暖,裁员闭店,Hadoop 三大发行商遭“团灭”

在 Hadoop 的发展史上,有三家公司不得不提,分别是 Cloudera、Hortonworks 和 MapR。


Cloudera 是第一家 Hadoop 商业化公司,成立于 2008 年 8 月,创始人来自 Google、FaceBook 和 Yahoo!,其首席架构师 Doug Cutting 也是 Hadoop 的第一位作者;Hortonworks 成立于 2011 年,是由 Yahoo! 的 Hadoop 团队拆分而成;MapR 成立于 2009 年,创始人 M.C.Srivas 来自于 Google。


这三家公司同属于 Hadoop 发行版提供商。所谓的“发行版”,其实是开源文化特有的,虽然在很多外行眼中,发行版只是将开源代码打包,然后在添加一些自己独创的边角料。但其实发行版真正比拼的是对海量生态系统组件的价值筛选、兼容和集成保证以及支撑服务。


同样是提供发行版,这三家公司的商业模式可以说是完全不同。Cloudera 主要是发布 Hadoop 商业版和商用工具,其核心组件 CDH 开源免费,与 Apache 社区同步;而数据治理和系统管理组件闭源,用户需要获得商业许可,除了之外,商业组件也会提供企业生产环境中必需的运维功能。


Hortonworks 的商业模式是 100%完全开源的策略,所有产品开源,用户可免费使用。真正用来盈利的是技术服务支持。


MapR 的商业模式遵循了传统软件厂商的模式,采用私有化实现,用户通过购买软件许可来使用。


虽然三家公司的商业模式不尽相同,但是都曾从 Hadoop 中获得了红利,Cloudera 的估值在顶峰时高达 41 亿美元,而 Hortonworks 和 MapR 的估值也曾超过 10 亿美元。


不过,最近剧情急转直下,2018 年 10 月,Cloudera 和 Hortonworks 宣布合并,Cloudera 的股东将拥有新公司 60%的股权,Hortonworks 的股东持有 40%的股权。合并时,双方对于未来的盈利能力信心十足,“到 2020 年预计每年收入有望超过 10 亿美元。”但是,事情发展并不如预期,合并半年多后,2019 年 6 月 6 日美股开盘,Cloudera 股价暴跌 43%,曾经 41 亿美元的估值缩水为 14 亿美元。


相比于抱团取暖的 Cloudera 和 Hortonworks,MapR 的处境更为艰难了,甚至走到了“闭店裁员”的窘境,“如果再获得新的资金注入,MapR 可能会裁员 122 人,并关闭位于 Santa Clara 的总部。”据外媒报道,MapR 裁员将于 6 月 14 日生效,但是就在前几日,有消息称 MapR 将寻找新资金的最后期限延长到了 7 月 9 日。



眼看 Hadoop 三大商业公司起高楼,为何忽然之间楼斜了呢?众说纷纭,有人说是因为数据库的发展,有人说是因为云计算的崛起,还有人说是自身模式有问题?…为了弄清楚原因,我们采访了多位各领域的技术专家。

MongoDB 和 Elasticsearch 会是 Hadoop 的竞争对手吗?

在一篇外媒的分析文章中,提出了这样一个观点:在受欢迎指数、收益等方面,大数据其他开源供应商(如 Elastic 和 MongoDB 公司)和 Hadoop 三大商业公司呈现出了此消彼长的态势,之前没有人认为 MongoDB 和 Elasticsearch 这样的技术以及它们背后的公司能够挑战 Hadoop 及相关产品,但是现在它们做到了。


事实真如这篇文章分析的那样吗?MongoDB、Elasticsearch 和 Hadoop 真的已经成为了竞争关系吗?


针对此,我们采访多位 MongoDB 和 Elasticsearch 的技术专家,大家的观点出奇的一致,那就是从目前来看,MongoDB 和 Elasticsearch 与 Hadoop 并不构成竞争关系,甚至连重合点都很少。


“MongoDB 和 Elasticsearch 与 Hadoop 在本质上是离线处理和在线处理两个完全不同的方向,”MongoDB 中文社区主席唐建法这样认为:“Hadoop 的底层存储是基于无索引的 HDFS ,核心应用场景是对海量结构化、非结构化数据的永久存储和离线分析,例如客户肖像、流失度分析、日志分析、商业智能等。而 MongoDB 和 Elasticsearch 的核心场景是实时交互,通常用于人机交互场景,例如电商移动应用,其特征是响应时间一般是毫秒级到秒级。”


当然,它们之间也不是完全没有竞争的地方,但 MongoDB 、Elasticsearch 真正竞争的是 Hadoop 内的生态组件,例如 HBase、Hive、Impala 等。以 Elasticsearch 为例,它满足了比较基础的即席查询需求、在线业务检索需求,甚至是轻量的 BI 需求,这些在功能上与 Hadoop 会有所重合。


除了竞争关系,这篇外媒评论文中还提到了一个重要观点,那就是 Hadoop 使用繁琐,用户体验糟糕,MongoDB 和 Elasticsearch 使用方便,而这也导致了 Hadoop 的“衰败”。


“Hadoop 使用繁琐”的观点得到了众多技术专家的赞同。Hadoop 的本质其实就是 HDFS 存储+MapReduce 计算框架,但是 Hadoop 发行商为了提高自己的商业竞争力,在 Hadoop 技术上增加了各种组件。Elastic 社区首席架构师吴斌称,“假设你发现了一个符合需求的组件,那么在部署使用它之前,可能还需要部署它的存储和配置管理组件,这时就不得不把精力放在诸如 HDFS、Zookeeper 等组件之上。在真正使用服务之前,用户就在 HDFS 和 Zookeeper 上付出了不少代价,这个过程往往会让入门级选手心灰意冷,进而追求门槛更低的服务,例如 Elasticsearch 或者 MongoDB。”


即使成功迈过了入门的门槛,很多企业也会因为复杂性难以充分利用 Hadoop 。MongoDB 中文社区主席唐建法曾在两间银行看到过这样的情况,他们一家使用 MapR,一家使用 Cloudera,在系统上线 2 年后的今天,只完成了一个最简单的业务场景,行内一部分业务数据的归档功能。他们提到了一个共同的问题就是,如果说写进数据湖(Hadoop)还算可以做得到, 把数据从里面读出来使用是更加困难的!

公有云会给 Hadoop 致命一击吗?

在很多分析文章中,都把 Hadoop 近日来的“颓势”归因为公有云的发展,Hadoop 的出现代表了当时革命性的技术,而云计算代表了数据处理的新方法,解决了与 Hadoop 相同的问题。Hadoop 主要是应用了比之前廉价的存储,但是云计算的出现,让存储变得更加廉价,且用户体验也获得了成倍提升。


云计算厂商打造了完全集成的一站式云原生服务,并且在云上提供了很多组件来替代原有的 Hadoop 组件,例如 AWS 的 S3 替代了 HDFS,K8S 替代了 Yarn。而 Hadoop 因其庞然的架构,本身并不适合以弹性灵活快速扩展的公用云环境。


公有云的出现给了 Hadoop 一定的压力,但会成为 Hadoop 的致命一击吗?


综合多位技术专家的意见,答案是否定的。


本地化部署的 Hadoop 颓势确实和公有云产品有关。吴斌认为:“云计算厂商提供的托管服务在部署和运维上给予了用户太多便利,且从计算资源角度来看,云厂商大大降低了用户的成本,尤其是竞价实例,在给终端用户节省成本的同时,也做到了资源的合理利用和自身利益的最大化。”


在采访中,唐建法还提到了另外一种情况:“支撑大部分实体经济的企业,例如制造业、金融业、政府等强监管行业,还远远没有达到把企业全量数据存放到公有云的阶段,甚至会出于数据安全的考虑,永远不放在公有云上。”也就是说,公有云也不是银弹,即使发展得更好,也不可能完全侵占 Hadoop 的应用场景。


在很多分析文章都把云公司和 Hadoop 发行版公司放在了对立的两端,事实上它们并不是天然的对手,Hadoop 发行版公司也在积极的向云端转型,甚至 Cloudera 原本的初衷就是提供云服务。Cloudera 创始人在某次访谈中提到:“Cloudera 在创建时原本打算做的服务是类似于现在 AWS 的 Elastic MapReduce 那样的云上服务。但很快发现这个模式太超前,所以转向了做 Hadoop 发行商的角色。”


云会威胁 Cloudera 吗?Cloudera 创始人 Mike Olson 在 2018 年接受采访时,是这样回答的:“如果五年后我们只是一个本地部署供应商,我们将成为一个注脚。我们的大好机会是帮助客户迁移到云,并提供云和本地部署之间的可移植性。由于我们在早期所做的赌注,我们可以让用户在不编码到专有 API 的情况下进行迁移。我们与所有的超大规模云提供商都有良好的合作关系。当然,他们在某种程度上与我们竞争,但我的机会不是击败 Redshift 。Redshift 的目的是帮助那些希望训练机器学习模型的客户在所有云提供商中提供这种能力。而我们的目标是将客户想要的所有可移植性与他们需要的法规和遵从性功能集成并提供给他们。”

Hadoop 三大发行商的衰落是否代表了 Hadoop 的衰败?

“Hadoop 三大发行商的衰落是否代表了 Hadoop 的衰败?”这是很多人关心的问题,也是技术人在热情讨论的问题。首先,需要明确的是 Hadoop 三大发行商无法全权代表 Hadoop,其次,与前几年相比,Hadoop 的热度确实在下降。


与其说 Hadoop 衰败,倒不如说是 Hadoop 走下了神坛。早些年前,Hadoop 是与大数据划等号的存在,但是现在,大家对于大数据产品的需求更丰富了,眼光也更挑剔了。最早大家只要求能够处理海量数据,后来追求高效实时,而现在大家还要求经济便宜,功能丰富。


唐建法认为 Hadoop 生态的衰败并非是指技术,而是市场炒作的一种理性回归。因为低成本、海量扩展能力,以及对半结构化、非结构化数据的支持,Hadoop 在大数据分析、历史数据归档方面是有独特地位的。如果 Hadoop 能够专注于擅长的离线场景,并提升用户使用体验,那么基于 Hadoop 的技术方案在未来还是很有前景的。

Hadoop 真正面临的竞争态势是什么?

既然 Hadoop 真正的竞争对手不是 MongoDB、Elasticsearch 等其它开源产品,也不是公有云,那么真正的对手是谁?


首先,我们不能简单的把 Hadoop 理解成一款产品,它是一种生态。所以,Hadoop 真正面临的其实是生态之争,而不是某款产品之争。


Elasticsearch 技术专家表示:“与 Elasticsearch 生态相比, Hadoop 的产品功能相对比较分散。Elastic Stack 的整合程度则非常高, 且 Elasticsearch 的分析速度更快更实时,从数据接入到前端分析展现都有完整的产品,打通了整条数据分析的链路,开箱即用,用户体验要好的多。”


而云计算厂商通常会选择更多的生态伙伴来一起合作,例如 Google 宣布将 MongoDB 纳入 Market Place 产品目录,AWS 与 MongoDB 签署全球金牌合作伙伴,腾讯云和 Elastic 达成合作。


与单个产品或环节的竞争不同,生态之间的竞争更加复杂多样,既包括了产业链上的生态,也包括了跨行业的生态,所以竞争结果不只是简单的争长竞短、你死我活,也有可能是互相融合、共同繁荣。Hadoop 生态与其它大数据生态各自有自己的使用场景和成熟的生态链,它们之间不只有竞争,更有互补的地方,从这个角度来看,Hadoop 未来的机会不是打败对手,而是做好自己。




我建了一个大数据相关的微信交流群,群内专家会讨论相关技术的实现原理以及落地方案,同时,群友也会分享相关的免费学习资料。如果你感兴趣,欢迎戳我进群


2019-07-02 08:109334
用户头像

发布了 497 篇内容, 共 308.8 次阅读, 收获喜欢 1907 次。

关注

评论 5 条评论

发布
用户头像
一句话,之所以说Hadoop没落了,因为他是大数据时代的开创者,曾经是唯一选择,谈大数据就是Hadoop
2019-07-07 18:20
回复
用户头像
体验,技术不仅能解决问题,还要让用户体验越来越好
2019-07-02 14:34
回复
用户头像
万物周而复始,这也是守恒吧,有衰落,就会有兴起。
2019-07-02 10:13
回复
用户头像
“Hadoop 生态的衰败并非是指技术,而是市场炒作的一种理性回归。”这个评价很中肯了,如果从媒体角度来说,Hadoop的鼎盛时期可能是2013,2014年,但绝不是Hadoop技术的鼎盛时期,直到现在Hadoop技术仍在创新。
2019-07-02 09:52
回复
用户头像
打败自己的往往都不是别人,竞争产品的出现会更好的意识到自身产品的不足,推动自己改革创新,这是一种好事!!!
2019-07-02 09:23
回复
没有更多了
发现更多内容

开心档之MySQL WHERE 子句

5月上海线下 · CSM认证周末班【提前报名特惠】“全球金牌课程”CST导师亲授

ShineScrum捷行

基于SpringBoot实现单元测试的多种情境/方法(二)

天翼云开发者社区

CNStack 服务网格:构建统一的服务治理和零信任安全能力

阿里巴巴云原生

阿里云 云原生 CNStack

软件测试/测试开发丨如何高效使用 Requests 做接口自动化测试

测试人

软件测试 自动化测试 接口测试 测试开发 requests

CTO:半小时内处理好MyBatisPlus逻辑删除与唯一索引的兼容问题

了不起的程序猿

哪里有免费大文件传输平台?通过这4个网站免费来进行大文件传输

镭速

从“卖船”到提供建造“航母” 的基础设施,用友BIP有底气

用友BIP

网上说低代码的一大堆,JNPF凭什么可以火?

引迈信息

前端 敏捷开发 低代码 快速开发 JNPF

软件测试/测试开发丨Chrome 浏览器+Postman还能这样做接口测试 ?

测试人

软件测试 Postman 自动化测试 接口测试 测试开发

打破软件开发“不可能三角” 只需一个低代码方案

力软低代码开发平台

FastAPI 快速开发 Web API 项目: 定义路径参数和查询参数

宇宙之一粟

Python FastApi

龙蜥开发者说:历时三周,记录如何从 0 到 1 构建龙蜥衍生版 | 第 18 期

OpenAnolis小助手

开源 操作系统 龙蜥社区 浪潮信息 衍生版

软件测试/测试开发丨玩游戏为什么会卡顿?

测试人

软件测试 游戏 自动化测试 卡顿 测试开发

5月上海线下 · CSPO认证周末班【提前报名特惠】“价值交付课程”CST导师亲授

ShineScrum捷行

智改数转:这个制造业的必答题该如何作答?

加入高科技仿生人

低代码 数字化 制造业 智能化 智改数转

分布式政企应用如何快速实现云原生的微服务架构改造

华为云开源

微服务 云原生

容器化,让数据库如虎添翼

沃趣科技

MySQL 数据库 云原生 容器化

数据库原理及MySQL应用 | 程序流程控制

TiAmo

数据库 sql

开心档之C++ 指针

雪奈椰子

前沿成果 | 澳鹏Appen团队两篇研究论文被国际顶会收录

澳鹏Appen

人工智能 机器学习 计算机视觉 nlp 数据标注

再获权威认可!MIAOYUN入选中国信通院2022年度《云原生产品目录》

MIAOYUN

云计算 容器 云原生 容器云 容器云平台

开心档之C++ 多态

雪奈椰子

保证高效写入查询的情况下,如何实现 CPU 资源和磁盘 IO 的最低开销?

TDengine

大数据 tdengine 数据处理 时序数据库 资源消耗

重磅消息 | 2023年腾讯云从业者课程全面升级

科技热闻

如何通过Java代码将添加页码到PDF文档?

在下毛毛雨

Java PDF 添加页码

国营单位工作4年转行网络安全,成功上岸安全开发!

网络安全学海

黑客 网络安全 信息安全 渗透测试 WEB安全

【特别策划】2022年银行年报金融科技系列专题(一)

易观分析

金融科技 金融 银行

🎊这个 OpenTiny 开源项目的 CLI 可太牛了,两行命令创建一个美观大气的 Vue Admin 后台管理系统,有手就会,连我的设计师朋友都学会啦啦

Kagol

Vue3 cli 后台管理系统 vue admin

明道云技术路径选择及与LCDP的比较

明道云

对话阿里云致凡:社会视频化“狂飙”,倒逼视频云技术加速迭代

云布道师

平头哥

谁在“谋杀” Hadoop?_大数据_田晓旭_InfoQ精选文章