阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

Hadoop 气数已尽:逃离复杂性,拥抱云计算

  • 2019-06-14
  • 本文字数:2979 字

    阅读完需:约 10 分钟

Hadoop气数已尽:逃离复杂性,拥抱云计算

虽然大数据依然如日中天,但该领域曾经的领头羊 Cloudera、Hortonworks 和 MapR 三家公司最近步履蹒跚,多少掩盖了其几分风光。作为曾经的数据宠儿,过去筹集到的巨额投资源源不断。例如,英特尔公司就曾向 Cloudera 注入 7.66 亿美元,这还仅仅只是一轮投资的数额!如今,这些大数据领域的重量级公司纷纷被迫瘦身,Cloudera 和 Hortonworks 合并,而 MapR 开始裁员。


与此同时,大数据领域的其他开源供应商(如 Elastic 和 MongoDB 公司)却势头正猛。到底发生了什么事?当然,这背后有种种原因,但其中一个事实是,老牌 Hadoop 供应商把大赌注押在了错误的目标用户上,瞄准的是所谓数据中心的专职架构师。然而,市场已经转向了在云计算环境中寻求自由的个体开发人员。

此消彼长

在那些靠 Hadoop 发家致富的供应商中,MapR 是最新的牺牲品。MapR 公司一度估值超过 10 亿美元,但最近披露的消息是,除非能找到新的投资者,否则公司必须裁员 122 人,这个数量约占员工总数的 25%,而且裁员名单包括其首席执行官 John Schroeder、其他高管以及多名工程师,并且同时准备关闭其总部办公场所。如果真能找到投资者的话,他们必须在 6 月 14 日前签署协议,否则 MapR 的前景将会一片黯淡。


不过,最近大数据领域一直都不太平。根据 LinkedIn 的数据,在过去两年中,MapR 公司已经缩水了 29%。无独有偶,大概是因为 Cloudera 和 Hortonworks 这两家公司无法单独生存,于是它们进行了合并,但在合并之后不久,Cloudera 就宣布了其惨不忍睹的收益,预计收入比分析师预测少了 6900 万到 8900 万美元。与此同时,公司首席执行官 Tom Reilly、联合创始人兼 CSO Mike Olson 双双宣布辞职。该公司股价随即暴跌 40%。


以上种种结果似乎很容易就被归咎于一个原因:之前的大数据领域被过度炒作,泡沫破灭后回归现实,Hadoop 领头羊已经溃不成军。但这却无法解释为什么大数据领域的其他供应商却依然在蓬勃发展。例如,MongoDB 数据库产品受欢迎程度一直在增长,MongoDB 现在的受欢迎指数大约是 Oracle 和 MySQL 的三分之一,而五年前只有十分之一(https://db-engines.com/en/ranking)。这种受欢迎程度反过来良性地推动 MongoDB 公司的收入增长,最近收入已经跃升了 78%。


同样,Elasticsearch 分布式搜索和分析引擎背后的公司 Elastic 在去年员工数量翻了一番,最近一个季度的收入增长了 70%。许多公司已经转用 Elastic 的产品进行传统的文本搜索和其他更多的搜索,比如英国伦敦的 Stansted 机场就使用 Elastic 工具来追踪和可视化机场内的人员和行李流量,并提供实时分析。


大数据时代的剧本似乎让人看不懂了。像 MongoDB 和 Elasticsearch 这样的技术以及它们背后的公司从来没有被认为能够挑战 Hadoop 和相关产品。然而现在看来,他们确实做到了。为什么会这样?

预报:未来多云

其中一个答案是因为“云”,但它也只是一个多方面综合效应的一个侧面而已。正如 Anaconda 高级副总裁 Mathew Lodge 在一篇文章中所提及的,尽管 Cloudera、Hortonworks 和 MapR 这三家公司都在拼命从现有产品中寻求演进,但 AWS、微软 Azure 和谷歌 Cloud 三巨头打造的一站式云原生服务提供了“完全集成的产品系列,获取成本更低,扩容更便宜”。企业用户的目光纷纷投向了这些服务和产品。虽然 Hadoop 供应商以尽可能快的速度打造自己的云服务,但其速度根本赶不上那些云计算领域的重量级竞争对手。


虽然 Hadoop 在当时是颇具革命性的技术,但与云计算的替代方案相比,它的成本高得离谱。正如Clint Sharp所指出的,“Hadoop 的主要应用场景一直是廉价的存储。然而,有了云之后,存储变得更廉价,更何况 S3+EMR 和其他服务的用户体验还提高了千倍不止。” 作为传统专有数据仓库的替代品,Hadoop 曾经是很不错的选择,但它现在已经远比不上更现代的技术(甚至是基于云的 Snowflake 数据仓库,等等)。


与此同时,云计算代表着处理数据的新方法。虽然它们本身不是完全同质的替代品,但与 MongoDB 或 Elasticsearch 一样,它们解决了与 Hadoop 相同的问题,而且还简单易用,没有那些令人抓狂的麻烦。正如 MongoDB 的Joe Drumgoole所说,“编写有效的分布式 Map-reduce 算法真的非常非常困难。” 更糟糕的是,Hadoop 供应商争先恐后地为他们的 Hadoop 产品添加各种开源插件(例如,Impala、Pig、Hive,以及 Flume),还发明了更累赘的“解决方案技术栈”。直到最后,终于有一位观察者这样评价,“没有人知道这些 Hadoop 公司到底在做什么”。


对于一些企业用户来说,或许在这上面费力地付出时间和精力还算值得。然而,对于肩负“把事情做完”任务的个体开发人员来说,他们越来越多倾向于选择更简单直接的替代方案。

使用方便才是王道

Hadoop 及其衍生产品的开箱即用体验确实不忍直视。这与 MongoDB 的用户体验形成鲜明对比。前 MongoDB 高管Kelly Stirman认为用户体验是让 MongoDB 在同类产品中脱颖而出的一个关键。这是一种什么体验?一位叫Tom Barber的这样描述


在使用 MongoDB 时,你可以容易地在一台服务器上安装 MongoDB,而不需要在一个糟糕的 VM 上浪费时间。在生产环境中,你可以直接在一台服务器上把它运行起来。你不需要写一大堆代码就可以把它和其他一堆东西连接起来。人人都希望使用这样的数据库…MongoDB 真正做到了很容易让数据流入,也很容易就让数据流出。


TimeScale DB 首席执行官 Ajay Kulkarni 也表示赞同,他补充道


个体开发人员的热爱是 MongoDB 战胜 Hadoop 的原因。MongoDB 聚焦于首次用户体验。而 Hadoop 的运行过程十分繁琐,简直臭名昭著。虽然 Hadoop 供应商针对企业用户提供了一套优秀的销售宣传说辞,但如果没有开发人员的热爱和支持,它的增长就会停滞,市场就会萎缩。


在 MongoDB 和 Elastic 击败 Cloudera 和 MapR 这件事上,虽然把成功因素统统归于开发人员的热爱可能有些夸大其词,但这的确是一个不争的事实。


开发人员Jake Kaldenbaugh认为,MongoDB 已经开始“融入”到各种现代应用程序中。随着时间的推移,那些一开始将 MongoDB 应用于并不那么重要的应用程序的开发人员,会将 MongoDB 应用到那些涉及重要业务的应用程序中,而且 MongoDB 还在不断添加新功能(比如多文档事务支持),以支持更复杂的应用场景,但又没有让这些功能变得过于复杂。


那么,之前的这些大数据巨头公司们将何去何从呢?Mathew Lodge 已经为他们写下了悼词:


在 Cloudera 和 Hortonworks(还有 MapR)作为大数据宇宙中心长达 10 年之后,这个领域的重心已经转移到其他地方。如今领先的云公司并不像 Cloudera 和 Hortonworks 那样运行大型的 Hadoop/Spark 集群,而是在容器基础设施之上运行分布式数据库和应用程序。他们用 Python、R 和其他非 Java 语言进行机器学习。越来越多的企业正转向类似的技术方向,因为它们也希望获得同样的速度和规模效益。那些使用 Hadoop 和 Spark 技术的世界是该紧跟时代做出改变了。


开源数据基础设施的创新日新月异,这既是福,也是祸。创新正在以惊人的速度发生,注定会有一些供应商将在这个飞速发展的过程中破产。


查看英文原文:


https://www.infoworld.com/article/3400864/hadoop-runs-out-of-gas.html?upd=1560395045502


相关文章


架构师特刊:Hadoop十年回顾


Hadoop 十年解读与发展预测


Hadoop 真的要死了吗?


CTO视角解读:国外企业部署Hadoop到底犹豫什么?


大数据独角兽 Cloudera 股价腰斩,Hadoop 将何去何从


2019-06-14 12:0021572
用户头像

发布了 63 篇内容, 共 41.1 次阅读, 收获喜欢 119 次。

关注

评论 11 条评论

发布
用户头像
Amazon EMR 提供的托管 Hadoop 框架可以让您快速、轻松、经济高效地在多个动态可扩展的 Amazon EC2 实例中处理大量数据。您还可以运行其他常用的分布式框架(例如 EMR 中的 Apache Spark、HBase、Presto 和 Flink),以及与其他 AWS 数据存储服务(例如 Amazon S3 和 Amazon DynamoDB)中的数据进行交互。EMR Notebooks 基于热门的 Jupyter Notebook,可为即席查询和探索性分析提供开发和协作环境。
EMR 能够安全可靠地处理广泛的大数据使用案例,包括日志分析、Web 索引、数据转换 (ETL)、机器学习、财务分析、科学模拟和生物信息。
---不评论了
2019-06-27 18:57
回复
用户头像
不是你想换就换得,
2019-06-21 17:10
回复
用户头像
Hadoop技术 != Hadoop发行厂商
2019-06-19 08:37
回复
用户头像
elasticsearch+kibana确实好用到爆炸,周边生态又好,像我这种才开始有些数据分析需求的肯定不会去碰hadoop那套东西,部署维护过于复杂。

但要是能在k8s上无痛部署一套hadoop,我还是愿意试一试的
2019-06-18 10:13
回复
用户头像
三年前,我就评估Hadoop生态要完蛋了。openstack也要完蛋了。
2019-06-17 16:14
回复
那时我的这种观点被很多人喷
2019-06-17 16:14
回复
现在也应该pen你。
2019-06-19 17:44
回复
完蛋?艾斯比
2019-06-21 17:10
回复
用户头像
醍醐灌顶
2019-06-17 11:02
回复
用户头像
很不错的一片文章
2019-06-16 10:42
回复
用户头像
2019-06-14 23:28
回复
没有更多了
发现更多内容

跳板机逐渐被堡垒机替代的最主要原因是这个!

wljslmz

运维 堡垒机 跳板机 11月月更

「Go实战」基于Prometheus+Grafana搭建完整的监控系统

Go学堂

golang 程序员 个人成长 监控 11月月更

基于一段神奇的CSS渐变制作噪点效果

南城FE

CSS 前端 css特效 渐变

运维进阶训练营 -W05H

赤色闪电

运维

分布式锁:不同实现方式实践测评

海风极客

Go 分布式 后端 分布式锁 11月月更

云原生下日志采集的3种方式

穿过生命散发芬芳

11月月更 云原生日志采集

【web 开发基础】PHP自定义回调函数之call_user_func_array() (36)

迷彩

回调函数 web开发基础 11月月更 call_user_func_array 自定义回调函数

模块六-拆分电商系统为微服务

Geek_b35d92

微服务 拆分

基于 Pipeline 实现完整的代码部署流水线

忙着长大#

浅谈MySQL Binlog日志

海风极客

MySQL 数据库 Binlog 11月月更

实验六 设计模式

游坦之

设计模式 11月月更

软件设计体系 实验一 经典软件体系结构风格

游坦之

设计模式 11月月更

2022-11-27:超过经理收入的员工。编写一个SQL查询来查找收入比经理高的员工。以下数据的结果输出是Joe,因为Joe是唯一挣得比经理多的雇员。 DROP TABLE IF EXISTS `em

福大大架构师每日一题

MySQL 数据库 福大大

发布MagicOS 7.0, 荣耀如何打造“松弛感”的操作系统?

脑极体

电商微服务架构图

Johnny

架构实战训练营9期

【SpringBoot】@Enable*注解和@Import

游坦之

spring-boot 11月月更

电商系统微服务拆分设计

π

架构师实战营

ELK 各组件功能及Elasticsearch 的节点角色类型介绍

忙着长大#

ELK

电商平台微服务架构

Jack

架构实战训练营9期

【web 开发基础】PHP回调函数之变量函数 (35)

迷彩

php 回调函数 11月月更

MobPush for Flutter

MobTech袤博科技

关于登录框的渗透测试

网络安全学海

网络安全 安全 信息安全 渗透测试 漏洞挖掘

软件设计与体系结构 实验二 经典软件体系结构风格(二)

游坦之

设计模式 11月月更

Vue复刻华为官网(三)

游坦之

Vue 11月月更

极客时间运维进阶训练营第五周作业

忙着长大#

极客时间

Maven 如何配置推送的仓库

HoneyMoose

防火墙是网络安全的第一道防线,你认同吗?

wljslmz

网络安全 防火墙 11月月更

ubuntu部署ELK-三节点

忙着长大#

ELK

计算机网络(一):计算机网络概念、功能、组成

游坦之

计算机网络 11月月更

架构实战营模块6作业-拆分电商系统为微服务

冷夫冲

架构 「架构实战营」

架构模块六-作业

许四多

Hadoop气数已尽:逃离复杂性,拥抱云计算_开源_Matt Asay_InfoQ精选文章