阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

Hadoop 气数已尽:逃离复杂性,拥抱云计算

  • 2019-06-14
  • 本文字数:2979 字

    阅读完需:约 10 分钟

Hadoop气数已尽:逃离复杂性,拥抱云计算

虽然大数据依然如日中天,但该领域曾经的领头羊 Cloudera、Hortonworks 和 MapR 三家公司最近步履蹒跚,多少掩盖了其几分风光。作为曾经的数据宠儿,过去筹集到的巨额投资源源不断。例如,英特尔公司就曾向 Cloudera 注入 7.66 亿美元,这还仅仅只是一轮投资的数额!如今,这些大数据领域的重量级公司纷纷被迫瘦身,Cloudera 和 Hortonworks 合并,而 MapR 开始裁员。


与此同时,大数据领域的其他开源供应商(如 Elastic 和 MongoDB 公司)却势头正猛。到底发生了什么事?当然,这背后有种种原因,但其中一个事实是,老牌 Hadoop 供应商把大赌注押在了错误的目标用户上,瞄准的是所谓数据中心的专职架构师。然而,市场已经转向了在云计算环境中寻求自由的个体开发人员。

此消彼长

在那些靠 Hadoop 发家致富的供应商中,MapR 是最新的牺牲品。MapR 公司一度估值超过 10 亿美元,但最近披露的消息是,除非能找到新的投资者,否则公司必须裁员 122 人,这个数量约占员工总数的 25%,而且裁员名单包括其首席执行官 John Schroeder、其他高管以及多名工程师,并且同时准备关闭其总部办公场所。如果真能找到投资者的话,他们必须在 6 月 14 日前签署协议,否则 MapR 的前景将会一片黯淡。


不过,最近大数据领域一直都不太平。根据 LinkedIn 的数据,在过去两年中,MapR 公司已经缩水了 29%。无独有偶,大概是因为 Cloudera 和 Hortonworks 这两家公司无法单独生存,于是它们进行了合并,但在合并之后不久,Cloudera 就宣布了其惨不忍睹的收益,预计收入比分析师预测少了 6900 万到 8900 万美元。与此同时,公司首席执行官 Tom Reilly、联合创始人兼 CSO Mike Olson 双双宣布辞职。该公司股价随即暴跌 40%。


以上种种结果似乎很容易就被归咎于一个原因:之前的大数据领域被过度炒作,泡沫破灭后回归现实,Hadoop 领头羊已经溃不成军。但这却无法解释为什么大数据领域的其他供应商却依然在蓬勃发展。例如,MongoDB 数据库产品受欢迎程度一直在增长,MongoDB 现在的受欢迎指数大约是 Oracle 和 MySQL 的三分之一,而五年前只有十分之一(https://db-engines.com/en/ranking)。这种受欢迎程度反过来良性地推动 MongoDB 公司的收入增长,最近收入已经跃升了 78%。


同样,Elasticsearch 分布式搜索和分析引擎背后的公司 Elastic 在去年员工数量翻了一番,最近一个季度的收入增长了 70%。许多公司已经转用 Elastic 的产品进行传统的文本搜索和其他更多的搜索,比如英国伦敦的 Stansted 机场就使用 Elastic 工具来追踪和可视化机场内的人员和行李流量,并提供实时分析。


大数据时代的剧本似乎让人看不懂了。像 MongoDB 和 Elasticsearch 这样的技术以及它们背后的公司从来没有被认为能够挑战 Hadoop 和相关产品。然而现在看来,他们确实做到了。为什么会这样?

预报:未来多云

其中一个答案是因为“云”,但它也只是一个多方面综合效应的一个侧面而已。正如 Anaconda 高级副总裁 Mathew Lodge 在一篇文章中所提及的,尽管 Cloudera、Hortonworks 和 MapR 这三家公司都在拼命从现有产品中寻求演进,但 AWS、微软 Azure 和谷歌 Cloud 三巨头打造的一站式云原生服务提供了“完全集成的产品系列,获取成本更低,扩容更便宜”。企业用户的目光纷纷投向了这些服务和产品。虽然 Hadoop 供应商以尽可能快的速度打造自己的云服务,但其速度根本赶不上那些云计算领域的重量级竞争对手。


虽然 Hadoop 在当时是颇具革命性的技术,但与云计算的替代方案相比,它的成本高得离谱。正如Clint Sharp所指出的,“Hadoop 的主要应用场景一直是廉价的存储。然而,有了云之后,存储变得更廉价,更何况 S3+EMR 和其他服务的用户体验还提高了千倍不止。” 作为传统专有数据仓库的替代品,Hadoop 曾经是很不错的选择,但它现在已经远比不上更现代的技术(甚至是基于云的 Snowflake 数据仓库,等等)。


与此同时,云计算代表着处理数据的新方法。虽然它们本身不是完全同质的替代品,但与 MongoDB 或 Elasticsearch 一样,它们解决了与 Hadoop 相同的问题,而且还简单易用,没有那些令人抓狂的麻烦。正如 MongoDB 的Joe Drumgoole所说,“编写有效的分布式 Map-reduce 算法真的非常非常困难。” 更糟糕的是,Hadoop 供应商争先恐后地为他们的 Hadoop 产品添加各种开源插件(例如,Impala、Pig、Hive,以及 Flume),还发明了更累赘的“解决方案技术栈”。直到最后,终于有一位观察者这样评价,“没有人知道这些 Hadoop 公司到底在做什么”。


对于一些企业用户来说,或许在这上面费力地付出时间和精力还算值得。然而,对于肩负“把事情做完”任务的个体开发人员来说,他们越来越多倾向于选择更简单直接的替代方案。

使用方便才是王道

Hadoop 及其衍生产品的开箱即用体验确实不忍直视。这与 MongoDB 的用户体验形成鲜明对比。前 MongoDB 高管Kelly Stirman认为用户体验是让 MongoDB 在同类产品中脱颖而出的一个关键。这是一种什么体验?一位叫Tom Barber的这样描述


在使用 MongoDB 时,你可以容易地在一台服务器上安装 MongoDB,而不需要在一个糟糕的 VM 上浪费时间。在生产环境中,你可以直接在一台服务器上把它运行起来。你不需要写一大堆代码就可以把它和其他一堆东西连接起来。人人都希望使用这样的数据库…MongoDB 真正做到了很容易让数据流入,也很容易就让数据流出。


TimeScale DB 首席执行官 Ajay Kulkarni 也表示赞同,他补充道


个体开发人员的热爱是 MongoDB 战胜 Hadoop 的原因。MongoDB 聚焦于首次用户体验。而 Hadoop 的运行过程十分繁琐,简直臭名昭著。虽然 Hadoop 供应商针对企业用户提供了一套优秀的销售宣传说辞,但如果没有开发人员的热爱和支持,它的增长就会停滞,市场就会萎缩。


在 MongoDB 和 Elastic 击败 Cloudera 和 MapR 这件事上,虽然把成功因素统统归于开发人员的热爱可能有些夸大其词,但这的确是一个不争的事实。


开发人员Jake Kaldenbaugh认为,MongoDB 已经开始“融入”到各种现代应用程序中。随着时间的推移,那些一开始将 MongoDB 应用于并不那么重要的应用程序的开发人员,会将 MongoDB 应用到那些涉及重要业务的应用程序中,而且 MongoDB 还在不断添加新功能(比如多文档事务支持),以支持更复杂的应用场景,但又没有让这些功能变得过于复杂。


那么,之前的这些大数据巨头公司们将何去何从呢?Mathew Lodge 已经为他们写下了悼词:


在 Cloudera 和 Hortonworks(还有 MapR)作为大数据宇宙中心长达 10 年之后,这个领域的重心已经转移到其他地方。如今领先的云公司并不像 Cloudera 和 Hortonworks 那样运行大型的 Hadoop/Spark 集群,而是在容器基础设施之上运行分布式数据库和应用程序。他们用 Python、R 和其他非 Java 语言进行机器学习。越来越多的企业正转向类似的技术方向,因为它们也希望获得同样的速度和规模效益。那些使用 Hadoop 和 Spark 技术的世界是该紧跟时代做出改变了。


开源数据基础设施的创新日新月异,这既是福,也是祸。创新正在以惊人的速度发生,注定会有一些供应商将在这个飞速发展的过程中破产。


查看英文原文:


https://www.infoworld.com/article/3400864/hadoop-runs-out-of-gas.html?upd=1560395045502


相关文章


架构师特刊:Hadoop十年回顾


Hadoop 十年解读与发展预测


Hadoop 真的要死了吗?


CTO视角解读:国外企业部署Hadoop到底犹豫什么?


大数据独角兽 Cloudera 股价腰斩,Hadoop 将何去何从


2019-06-14 12:0021575
用户头像

发布了 63 篇内容, 共 41.2 次阅读, 收获喜欢 119 次。

关注

评论 11 条评论

发布
用户头像
Amazon EMR 提供的托管 Hadoop 框架可以让您快速、轻松、经济高效地在多个动态可扩展的 Amazon EC2 实例中处理大量数据。您还可以运行其他常用的分布式框架(例如 EMR 中的 Apache Spark、HBase、Presto 和 Flink),以及与其他 AWS 数据存储服务(例如 Amazon S3 和 Amazon DynamoDB)中的数据进行交互。EMR Notebooks 基于热门的 Jupyter Notebook,可为即席查询和探索性分析提供开发和协作环境。
EMR 能够安全可靠地处理广泛的大数据使用案例,包括日志分析、Web 索引、数据转换 (ETL)、机器学习、财务分析、科学模拟和生物信息。
---不评论了
2019-06-27 18:57
回复
用户头像
不是你想换就换得,
2019-06-21 17:10
回复
用户头像
Hadoop技术 != Hadoop发行厂商
2019-06-19 08:37
回复
用户头像
elasticsearch+kibana确实好用到爆炸,周边生态又好,像我这种才开始有些数据分析需求的肯定不会去碰hadoop那套东西,部署维护过于复杂。

但要是能在k8s上无痛部署一套hadoop,我还是愿意试一试的
2019-06-18 10:13
回复
用户头像
三年前,我就评估Hadoop生态要完蛋了。openstack也要完蛋了。
2019-06-17 16:14
回复
那时我的这种观点被很多人喷
2019-06-17 16:14
回复
现在也应该pen你。
2019-06-19 17:44
回复
完蛋?艾斯比
2019-06-21 17:10
回复
用户头像
醍醐灌顶
2019-06-17 11:02
回复
用户头像
很不错的一片文章
2019-06-16 10:42
回复
用户头像
2019-06-14 23:28
回复
没有更多了
发现更多内容

Flink CEP 在抖音电商的业务实践

Apache Flink

大数据 flink 实时计算

探讨MySQL事务特性和实现原理

小小怪下士

Java MySQL 程序员 事务

前端如何实现将多页数据合并导出到Excel单Sheet页解决方案|内附代码

葡萄城技术团队

数据库 前端 架构分布式

C++到Python全搞定,教你如何为FastDeploy贡献代码

飞桨PaddlePaddle

c++ paddle 飞桨

如何用Apipost预执行脚本动态修改Query、Body、Header参数

不想敲代码

Postman 接口调试 API apipost

2023年低代码发展新趋势

力软低代码开发平台

从零开始学习BOM&DOM

虎妞先生

前端 DOM

谈谈干前端三年的几点感受

虎妞先生

前端 成长 代码人生

干货|PCBA丝印位号与极性符号的组装性设计

华秋电子

PCB dfm

给webpack提了一个pr之后......

虎妞先生

前端 webpack #开源

前端包管理工具 npm yarn cnpm npx

虎妞先生

前端 包管理工具 #面试

应用部署初探:微服务的3大部署模式

SEAL安全

微服务 企业号 2 月 PK 榜

十分钟用vitepress搭建项目文档

虎妞先生

前端 vite Vue 3

看海泰方圆类ChatGPT技术模型!

电子信息发烧客

畅销10年的数据库技术图书,当之无愧的霸主!还有谁?

博文视点Broadview

微信小程序底层框架实现原理|万字长文

虎妞先生

微信小程序 前端 原理 架构、

对话 ChatGPT:现象级 AI 应用,将如何阐释「研发效能管理」?

LigaAI

人工智能 研发效能 openai ChatGPT 企业号 2 月 PK 榜

众生皆苦,我选pnpm

虎妞先生

npm 原理 前端工程化 pnpm

非代码的贡献也能成为Committer,我与DolphinScheduler社区的故事

Apache DolphinScheduler

开源 开源社区 开源文化 开源软件 大数据 开源

JVM性能调优,分享些好用的内存分析神器

Steven

Python从0到1丨图像增强及运算:形态学开运算、闭运算和梯度运算

华为云开发者联盟

Python 人工智能 华为云 企业号 2 月 PK 榜 华为云开发者联盟

BSN-DDC基础网络详解(二):快速接入指南

BSN研习社

BSN-DDC

Vue3项目框架搭建封装,一次学习,终身受益【万字长文,满满干货】

虎妞先生

前端 前端架构 Vue 3 vue cli

大型集团企业数据治理实践,推进全域数据资产体系建设 | 数字化标杆

袋鼠云数栈

辞旧岁立新年 | 展望前端工程师的2023

字节跳动终端技术

云原生 前端 前端工程师

Hi3861编译烧录更快捷

HarmonyOS开发者

HarmonyOS

图片竟能直接生成逼真音效?这AI模型也太神奇了吧!

人称T客

我的2022,从紫竹院到通惠河畔

虎妞先生

学习 前端 成长 年终总结

不常用但却常问的迭代器

虎妞先生

前端 ES6

云安全之浅谈密钥泄露

HummerCloud

云安全 密钥

神锁离线版和Bitwarden的自动填充:超级英雄 vs 被斗转星移的瞎鸟

神锁离线版

密码管理 密码管理器 密码安全 Bitwarden 神锁离线版

Hadoop气数已尽:逃离复杂性,拥抱云计算_开源_Matt Asay_InfoQ精选文章