写点什么

三家 Hadoop 厂商衰落启示:云大数据是颠覆者吗?

  • 2019-06-20
  • 本文字数:3915 字

    阅读完需:约 13 分钟

三家Hadoop厂商衰落启示:云大数据是颠覆者吗?

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

今年 5 月底,MapR被曝融资困难,可能在不久之后关闭,这个曾经估值高达 10 亿美元的 Hadoop 赛道的有力挑战者或将就此衰落。随后,同样围绕 Hadoop 进行商业化落地的Cloudera股价在 6 月 6 日(美东时间)开盘后暴跌 43%,这些老牌 Hadoop 供应商的落败一定程度上被认为与云厂商的崛起有关。然而,Hadoop 生态厂商发展到这一步到底与哪些因素有关?这是否意味着整体生态开始走下坡路?


三大 Hadoop 厂商衰落

在围绕Hadoop进行商业化的厂商中,Cloudera、Hortonworks 和 MapR 曾是最为外界所关注的对象,直到 Cloudera 和 Hortonworks宣布进行全股合并时,业界大部分声音是看好的。Syncsort首席技术官指出,虽然 Hortonworks 的产品专注于物联网和流数据场景,Cloudera 专注于数据科学、机器学习和人工智能。但在她看来,这可以使合并取得成功,因为合并后的公司将比二者中的任何一个都发展得更快,走得更远。


合并后不久,Cloudera 宣布的收入比分析师预测少了 6900 万到 8900 万美元。与此同时,公司首席执行官 Tom Reilly、联合创始人兼 CSO Mike Olson 双双宣布辞职。该公司股价随即暴跌 40%。


至于 MapR,其商业化的主要途径是提供优于开源 Hadoop 的特性,比如其创始人 M.C.Srivas 在公司创建伊始就将 Hadoop 文件系统 HDFS 进行了重构,兼容 Hadoop 协议的同时保持闭源,一度给外界造成技术实力优于整个 Hadoop 社区的感觉,可惜的是用户对此并不买账,导致其融资困难,甚至开始裁员并计划关闭硅谷总部。


对此,一位不愿意透露姓名的云计算领域专家在接受 InfoQ 采访时表示,开源颠覆了传统软件,云计算又颠覆了开源厂商。大数据的市场空间本身存在,但是随着云计算厂商的接入,确实削弱了传统大数据厂商的盈利能力。云厂商对传统大数据厂商冲击太大,因为总体成本更低,可获得性更容易,而这三家大数据厂商并没有提供相比云计算厂商大数据能力的差异化点。


当然,这三家围绕 Hadoop 进行商业化的厂商的衰落并不代表整个 Hadoop 生态的陨落,只能说明这样的商业化路径存在问题(不要将厂商和生态混为一谈)。 专家指出,过去,开源对传统软件是一种颠覆式的影响,在开源尤为活跃的大数据技术领域采用传统软件的商业化模式是一种逆势而为,云计算的兴起正在对开源产生巨大影响,正如Clint Sharp 所指出的,“Hadoop 的主要应用场景一直是廉价的存储。然而,有了云之后,存储变得更廉价,更何况 S3+EMR 和其他服务的用户体验还提高了千倍不止。”

云厂商的颠覆姿态

在企业逐步云化的过程中,云厂商的颠覆者姿态让其受到了诸多指责,比如开源杀手等,但这并没有阻碍企业云化的进程,大数据服务公司也在往云平台的方向演进,比如 Cloudera 与 Hortonworks 合并被认为是在一定程度上提升云服务的竞争力。但是,本地大数据厂商难以独立提供云大数据服务所依赖的全部基础设施资源,一般会集成到各大公有云平台,比如 MongoDB 提供的 Atlas 就与众多公有云厂商合作。因此,在各大公有云平台上,可以看到越来越多本地大数据服务商提供的服务。


那么,云厂商的出现为什么会对这一领域造成如此影响呢?专家认为,首先要从大数据的本源谈起,大数据的本源是需要处理的数据集远远大于单台物理机能够存储和处理的数据量。在这种情况下,出现了两个技术:一是跨服务器存储的分布式文件系统HDFS(当然,最早来自于谷歌论文);二是多机器处理的计算框架。这种体系在大数据发展的早、中期起到了非常大的作用,就是把大批量中低等级的硬件系统集成起来以处理海量数据。


在实践过程中,这种架构逐渐出现内在的不均衡。简单来说,物理机的计算和存储比例是固定的,但是从应用视角来看,计算和存储的比例关系往往是动态的,有些公司计算过剩,有些公司存储过剩,这导致硬件选型成为一个很大的挑战。同时,对于长久存在的大数据系统来说,新老硬件组成的非均质系统也存在负载均衡等管理上的挑战。


随着云架构的发展,无论是公有云,还是私有云,特别是公有云,可以实现存储与计算分离。IaaS 层将计算、存储、网络作为资源动态提供给用户消费,这成为一个最佳实践,完美消除了计算和存储的动态均衡问题。从最优化的角度来看,相对于传统的计算、存储一体化的大数据系统,云平台大数据服务无疑存在一些开销,但是这种形态让大数据集群建设初期要考虑的计算和存储匹配,网络设计等问题都“推迟决策”了,换言之就是不用那么早考虑,在具体业务使用时随用随取,这为业务带来了极大的灵活性。


从这个角度看,基于云架构的大数据系统,本质上提供了灵活性,而对数据业务本身而言,灵活性、动态性恰好是根本,那么基于云架构的大数据服务刚好契合了这些特征。大数据云服务的本质优势是享受更低成本、更快的技术更新。在过往与企业大数据团队打交道的过程中,专家发现其自建的大数据平台还在使用两年以前的开源大数据组件,因为人员的不稳定造成其不敢轻易进行技术升级,或者说没有能力升级,维护的包袱就会越来越重。


综上,业内专家向 InfoQ 表示,相比于本地大数据服务,云大数据服务灵活的本质是计算和存储分离,本质优势是极大得降低了成本,包括环境成本,节省搭建机房,风火水电,网络,操作系统等的时间;研发成本,节省服务搭建,研究周边依赖,可靠性部署,安全对接等的时间;人力成本,大数据运维需要非常专业的人才能胜任,企业应该聚焦在业务上而不是大数据平台的运维上;运行成本,大数据云服务厂家和基础设施的配合可以做到最优,尽可能减少资源消耗。

选用原则

在过往与企业用户打交道的过程中,完全依靠本地大数据服务,选择部分云供应商的大数据服务,在公有云的基础设施之上自建大数据服务的用户皆而有之。


就此现状,InfoQ 采访了华为云布道师赵军。他表示,大数据框架中的服务本身对基础设施并没有强绑定要求,而当前云端的性能、可靠性、可运维性已经足够高。就服务本身而言,所有大数据服务都适合在云端运行,企业应该根据业务类型进行区分。如果业务可以上云,则所有都可使用云端大数据服务。


在具体选用上,可以结合成本构成分析大数据平台的使用,包括如下几方面:


  • 风、火、水、电数据中心的成本

  • IaaS 成本

  • 大数据软件栈的成本

  • 运维大数据软件栈的成本

  • 使用大数据软件栈的团队的成本


其中,大数据软件栈和运维其的成本有些关系,有些用户完全通过开源软件实现,但是实际上付出了极大的人力成本。无论如何,不管是自建还是基于公有云,以上成本都是显性存在的,公有云可以省去一些大数据软件栈搭建及运维的成本,前两项成本则是购买公有云服务和自建的区别。此外,自建服务的弹性较小,云平台可以随时提供弹性能力。


至于云平台大数据服务的价格高昂与否,其实完全取决于公有云服务的定价。对于那些在 IaaS 层面采用自己设计、生产的 CPU、网络、存储等基础设施的公有云厂商来说,往往对于超大客户有比较大的让利能力。


对于不同类型的企业,选择大数据平台服务时关注的点会差异很大。举例来说,更关注成本且需要削峰的,建议优先选择 Serverless 服务;更关注资源隔离和独享的,建议选择包周期的资源类型服务;对于已有大数据平台经验的企业,则优选通用开源大数据开发平台类服务;对接口要求简单通用的,则优选 Serverless 服务。


大数据社区的多样性,导致了选择的多样性。具体原因可能很难一概而论,有的公司想总有一天要建立自己的私有云设施,所以仅希望公有云提供 IaaS;有的公司是因为已经在私有云方面具备很长的历史,团队、经验等都是现成的,因此在公有云的 IaaS 上自行搭建大数据服务。但是,对于绝大部分企业来讲,使用公有云的大数据服务会更省心,成本更低。


赵军表示,华为云目前提供通用的开源大数据开发平台,例如MRS(大数据平台)、DWS(数据仓库)、CSS(搜索引擎)等,帮助原本使用开源大数据平台的用户无缝迁移到华为云大数据平台;Serverless 的大数据服务,例如DIS(数据接入)、CDM(数据迁移)、CS(实时流处理)、CloudTable(表格存储)、DLI(数据湖探索)等,帮助客户按需使用大数据平台资源,支持数据采集、接入、存储、分析等,最低成本帮助客户解决削峰场景,并且与 AI 很好结合,可以让用户更容易使用 AI 技术;数据管理平台,例如DAYU(数据治理),帮助客户解决数据治理相关的问题;全栈大数据服务,包括多种专业化单一引擎的大数据服务;总之,主要意图是希望降低企业获取大数据服务的门槛,做到按需使用。在接口和应用开发体验方面完全与社区一致,同时提供按需、弹性、运维等支持,包括论坛等。


总体来看,企业如何选择取决于公有云运营者能否提供充分的迁移支持,让大数据服务的消费者省心、放心。省心指的是大数据服务与 Hadoop 社区的兼容性,这个兼容性能够让迁移的成本最小甚至无感知。放心指的是大数据服务有强大的团队支持,而不是简单的把 Hadoop 社区的东西拖来安装一下售卖。国内的公有云厂商在这方面的差别还是比较大的,有的走自研道路,可能存在社区兼容性跟进慢等情况;有的基本没有私有云大数据服务,导致自己的大数据服务没有充分锤炼。


短期来看,赵军表示,企业大数据服务的公有云、混合云和多云模式将共同存在。长期来看,公有云和私有云架构将逐渐趋同,甚至提供一致的体验,随着可信规则的建立,公有云可能会慢慢取代私有云,并且是多公有云模式,避免单一厂商锁定。未来,华为云大数据服务的发展方向是:数据安全可信,在华为云已经获得国际上主流的 ISO 27001 & 27017 & 27018 & CSA STAR 四个安全复审和认证的基础上,会在技术上继续发力,让用户进一步认可在公有云上的数据安全;支持 ARM,依托自产硬件,提供极致的成本竞争力;大数据技术更易用,降低使用门槛;与 AI 进行深度结合,让数据发挥更大的价值,让 AI 触手可得;大数据计算自动优化,实现大数据计算的“自动驾驶”。


公众号推荐:

AIGC 技术正以惊人的速度重塑着创新的边界,InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书,深度对话 30 位国内顶尖大模型专家,洞悉大模型技术前沿与未来趋势,精选 10 余个行业一线实践案例,全面展示大模型在多个垂直行业的应用成果,同时,揭秘全球热门大模型效果,为创业者、开发者提供决策支持和选型参考。关注「AI前线」,回复「领航者」免费获取电子书。

2019-06-20 08:406965
用户头像
赵钰莹 InfoQ 主编

发布了 881 篇内容, 共 620.2 次阅读, 收获喜欢 2674 次。

关注

评论 1 条评论

发布
用户头像
观点总结:云平台的出现确实对本地大数据服务造成了一定影响,但本地大数据厂商也在积极寻求转型和突破,同样保有自己的核心竞争力(具体可参见:https://www.infoq.cn/article/Lw_DNR4NudHEXLVcLtfo)。此外,这三家Hadoop厂商的衰落并不代表整个生态存在问题,更多是这三家厂商商业模式的问题。
2019-06-20 08:45
回复
没有更多了
发现更多内容

低代码技术与仓储管理的新纪元:革命性的供应链变革

天津汇柏科技有限公司

低代码 仓储系统

一文读懂Partisia Blockhain:兼顾去中心化、安全性与可扩展性

长安区块链

双线高防服务器的选择与配置:保障在线业务的安全与稳定

一只扑棱蛾子

高防服务器

DBAIOps关键SQL监控功能

DBAIops社区

数据库 运维 监控

国密数据加密在堡垒机上的应用有哪些?

行云管家

信息安全 数据加密 堡垒机 国密

通义灵码牵手阿里云函数计算 FC ,打造智能编码新体验

阿里云云效

阿里云 云原生 通义灵码

润和软件成功举办2023-2024年openEuler技术委员会会议

科技热闻

漫画项目管理 | 项目目标不合理,该如何修订?

禅道项目管理

项目管理 职场 pmp 能力提升 项目管理PMP

Giants Planet 宣布推出符文,建立在坚实价值的基础上

加密眼界

ChatGPT助力测试领域!探索人工智能编写测试用例的新前景

测吧(北京)科技有限公司

测试

DBAIOps生态概述

DBAIops社区

数据库 运维

Monibuca v5 实现零拷贝 BufReader

不卡科技

Go 性能优化 流媒体

PIRF-395

EchoZhou

English

借助淘宝评论API,商家轻松掌握市场动态与商机

技术冰糖葫芦

API 接口 API 文档 pinduoduo API

短视频评论抓取拓客软件|评论采集爬取下载工具

Geek_16d138

爬虫工具 爬虫技术 好用的软件分享

手把手教你实现 OceanBase 数据到 Apache Doris 的便捷迁移|实用指南

SelectDB

数据库 大数据 数据分析 数据同步 数据迁移

根据Nginx Ingress指标对指定后端进行HPA

华为云开发者联盟

nginx 开发 华为云 华为云开发者联盟 企业号2024年4月PK榜

阿里巴巴1688商品API实战:批量抓取价格、标题、图片及库存数据

技术冰糖葫芦

api 货币化 API 接口 pinduoduo API

短视频评论提取工具软件介绍|评论采集下载爬取

Geek_16d138

京东广告研发——AIGC在京东广告创意的技术应用

京东科技开发者

文心大模型“你说我画”:PaddleHub与PaddleSpeech的协同实践

百度开发者中心

人工智能 NLP 大模型 大模型

通义灵码牵手阿里云函数计算 FC ,打造智能编码新体验

阿里巴巴云原生

阿里云 云原生 函数计算 通义灵码

拥抱AI技术:6月22-23日全球金牌CSM认证课程 · Jim老师引导讨论AI & Agility话题

ShineScrum捷行

ScrumMaster 敏捷认证 Scrum官方认证

Giants Planet 宣布推出符文,建立在坚实价值的基础上

大瞿科技

ChatGPT助力测试领域!探索人工智能编写测试用例的新前景

测试人

软件测试

轻松复现一张AI图片

程序那些事

人工智能 程序那些事 4月月更 openai

Serverless 成本再优化:Knative 支持抢占式实例

阿里巴巴云原生

阿里云 Serverless 云原生

实战剖析-vue项目首屏加载时长优化

京东科技开发者

最新版Spring Security 中的路径匹配方案!

江南一点雨

Java spring security

利用飞桨与文心大模型重塑大宗商品数字供应链

百度开发者中心

深度学习 大模型

短视频评论ID提取采集软件|评论批量爬取下载工具

Geek_16d138

短视频创业 评论系统 好用的软件分享

三家Hadoop厂商衰落启示:云大数据是颠覆者吗?_文化 & 方法_赵钰莹_InfoQ精选文章