QCon 全球软件开发大会倒计时2个月!讲师已确认60%+ >>> 了解详情
写点什么

三家 Hadoop 厂商衰落启示:云大数据是颠覆者吗?

  • 2019-06-20
  • 本文字数:3915 字

    阅读完需:约 13 分钟

三家Hadoop厂商衰落启示:云大数据是颠覆者吗?

今年 5 月底,MapR被曝融资困难,可能在不久之后关闭,这个曾经估值高达 10 亿美元的 Hadoop 赛道的有力挑战者或将就此衰落。随后,同样围绕 Hadoop 进行商业化落地的Cloudera股价在 6 月 6 日(美东时间)开盘后暴跌 43%,这些老牌 Hadoop 供应商的落败一定程度上被认为与云厂商的崛起有关。然而,Hadoop 生态厂商发展到这一步到底与哪些因素有关?这是否意味着整体生态开始走下坡路?


三大 Hadoop 厂商衰落

在围绕Hadoop进行商业化的厂商中,Cloudera、Hortonworks 和 MapR 曾是最为外界所关注的对象,直到 Cloudera 和 Hortonworks宣布进行全股合并时,业界大部分声音是看好的。Syncsort首席技术官指出,虽然 Hortonworks 的产品专注于物联网和流数据场景,Cloudera 专注于数据科学、机器学习和人工智能。但在她看来,这可以使合并取得成功,因为合并后的公司将比二者中的任何一个都发展得更快,走得更远。


合并后不久,Cloudera 宣布的收入比分析师预测少了 6900 万到 8900 万美元。与此同时,公司首席执行官 Tom Reilly、联合创始人兼 CSO Mike Olson 双双宣布辞职。该公司股价随即暴跌 40%。


至于 MapR,其商业化的主要途径是提供优于开源 Hadoop 的特性,比如其创始人 M.C.Srivas 在公司创建伊始就将 Hadoop 文件系统 HDFS 进行了重构,兼容 Hadoop 协议的同时保持闭源,一度给外界造成技术实力优于整个 Hadoop 社区的感觉,可惜的是用户对此并不买账,导致其融资困难,甚至开始裁员并计划关闭硅谷总部。


对此,一位不愿意透露姓名的云计算领域专家在接受 InfoQ 采访时表示,开源颠覆了传统软件,云计算又颠覆了开源厂商。大数据的市场空间本身存在,但是随着云计算厂商的接入,确实削弱了传统大数据厂商的盈利能力。云厂商对传统大数据厂商冲击太大,因为总体成本更低,可获得性更容易,而这三家大数据厂商并没有提供相比云计算厂商大数据能力的差异化点。


当然,这三家围绕 Hadoop 进行商业化的厂商的衰落并不代表整个 Hadoop 生态的陨落,只能说明这样的商业化路径存在问题(不要将厂商和生态混为一谈)。 专家指出,过去,开源对传统软件是一种颠覆式的影响,在开源尤为活跃的大数据技术领域采用传统软件的商业化模式是一种逆势而为,云计算的兴起正在对开源产生巨大影响,正如Clint Sharp 所指出的,“Hadoop 的主要应用场景一直是廉价的存储。然而,有了云之后,存储变得更廉价,更何况 S3+EMR 和其他服务的用户体验还提高了千倍不止。”

云厂商的颠覆姿态

在企业逐步云化的过程中,云厂商的颠覆者姿态让其受到了诸多指责,比如开源杀手等,但这并没有阻碍企业云化的进程,大数据服务公司也在往云平台的方向演进,比如 Cloudera 与 Hortonworks 合并被认为是在一定程度上提升云服务的竞争力。但是,本地大数据厂商难以独立提供云大数据服务所依赖的全部基础设施资源,一般会集成到各大公有云平台,比如 MongoDB 提供的 Atlas 就与众多公有云厂商合作。因此,在各大公有云平台上,可以看到越来越多本地大数据服务商提供的服务。


那么,云厂商的出现为什么会对这一领域造成如此影响呢?专家认为,首先要从大数据的本源谈起,大数据的本源是需要处理的数据集远远大于单台物理机能够存储和处理的数据量。在这种情况下,出现了两个技术:一是跨服务器存储的分布式文件系统HDFS(当然,最早来自于谷歌论文);二是多机器处理的计算框架。这种体系在大数据发展的早、中期起到了非常大的作用,就是把大批量中低等级的硬件系统集成起来以处理海量数据。


在实践过程中,这种架构逐渐出现内在的不均衡。简单来说,物理机的计算和存储比例是固定的,但是从应用视角来看,计算和存储的比例关系往往是动态的,有些公司计算过剩,有些公司存储过剩,这导致硬件选型成为一个很大的挑战。同时,对于长久存在的大数据系统来说,新老硬件组成的非均质系统也存在负载均衡等管理上的挑战。


随着云架构的发展,无论是公有云,还是私有云,特别是公有云,可以实现存储与计算分离。IaaS 层将计算、存储、网络作为资源动态提供给用户消费,这成为一个最佳实践,完美消除了计算和存储的动态均衡问题。从最优化的角度来看,相对于传统的计算、存储一体化的大数据系统,云平台大数据服务无疑存在一些开销,但是这种形态让大数据集群建设初期要考虑的计算和存储匹配,网络设计等问题都“推迟决策”了,换言之就是不用那么早考虑,在具体业务使用时随用随取,这为业务带来了极大的灵活性。


从这个角度看,基于云架构的大数据系统,本质上提供了灵活性,而对数据业务本身而言,灵活性、动态性恰好是根本,那么基于云架构的大数据服务刚好契合了这些特征。大数据云服务的本质优势是享受更低成本、更快的技术更新。在过往与企业大数据团队打交道的过程中,专家发现其自建的大数据平台还在使用两年以前的开源大数据组件,因为人员的不稳定造成其不敢轻易进行技术升级,或者说没有能力升级,维护的包袱就会越来越重。


综上,业内专家向 InfoQ 表示,相比于本地大数据服务,云大数据服务灵活的本质是计算和存储分离,本质优势是极大得降低了成本,包括环境成本,节省搭建机房,风火水电,网络,操作系统等的时间;研发成本,节省服务搭建,研究周边依赖,可靠性部署,安全对接等的时间;人力成本,大数据运维需要非常专业的人才能胜任,企业应该聚焦在业务上而不是大数据平台的运维上;运行成本,大数据云服务厂家和基础设施的配合可以做到最优,尽可能减少资源消耗。

选用原则

在过往与企业用户打交道的过程中,完全依靠本地大数据服务,选择部分云供应商的大数据服务,在公有云的基础设施之上自建大数据服务的用户皆而有之。


就此现状,InfoQ 采访了华为云布道师赵军。他表示,大数据框架中的服务本身对基础设施并没有强绑定要求,而当前云端的性能、可靠性、可运维性已经足够高。就服务本身而言,所有大数据服务都适合在云端运行,企业应该根据业务类型进行区分。如果业务可以上云,则所有都可使用云端大数据服务。


在具体选用上,可以结合成本构成分析大数据平台的使用,包括如下几方面:


  • 风、火、水、电数据中心的成本

  • IaaS 成本

  • 大数据软件栈的成本

  • 运维大数据软件栈的成本

  • 使用大数据软件栈的团队的成本


其中,大数据软件栈和运维其的成本有些关系,有些用户完全通过开源软件实现,但是实际上付出了极大的人力成本。无论如何,不管是自建还是基于公有云,以上成本都是显性存在的,公有云可以省去一些大数据软件栈搭建及运维的成本,前两项成本则是购买公有云服务和自建的区别。此外,自建服务的弹性较小,云平台可以随时提供弹性能力。


至于云平台大数据服务的价格高昂与否,其实完全取决于公有云服务的定价。对于那些在 IaaS 层面采用自己设计、生产的 CPU、网络、存储等基础设施的公有云厂商来说,往往对于超大客户有比较大的让利能力。


对于不同类型的企业,选择大数据平台服务时关注的点会差异很大。举例来说,更关注成本且需要削峰的,建议优先选择 Serverless 服务;更关注资源隔离和独享的,建议选择包周期的资源类型服务;对于已有大数据平台经验的企业,则优选通用开源大数据开发平台类服务;对接口要求简单通用的,则优选 Serverless 服务。


大数据社区的多样性,导致了选择的多样性。具体原因可能很难一概而论,有的公司想总有一天要建立自己的私有云设施,所以仅希望公有云提供 IaaS;有的公司是因为已经在私有云方面具备很长的历史,团队、经验等都是现成的,因此在公有云的 IaaS 上自行搭建大数据服务。但是,对于绝大部分企业来讲,使用公有云的大数据服务会更省心,成本更低。


赵军表示,华为云目前提供通用的开源大数据开发平台,例如MRS(大数据平台)、DWS(数据仓库)、CSS(搜索引擎)等,帮助原本使用开源大数据平台的用户无缝迁移到华为云大数据平台;Serverless 的大数据服务,例如DIS(数据接入)、CDM(数据迁移)、CS(实时流处理)、CloudTable(表格存储)、DLI(数据湖探索)等,帮助客户按需使用大数据平台资源,支持数据采集、接入、存储、分析等,最低成本帮助客户解决削峰场景,并且与 AI 很好结合,可以让用户更容易使用 AI 技术;数据管理平台,例如DAYU(数据治理),帮助客户解决数据治理相关的问题;全栈大数据服务,包括多种专业化单一引擎的大数据服务;总之,主要意图是希望降低企业获取大数据服务的门槛,做到按需使用。在接口和应用开发体验方面完全与社区一致,同时提供按需、弹性、运维等支持,包括论坛等。


总体来看,企业如何选择取决于公有云运营者能否提供充分的迁移支持,让大数据服务的消费者省心、放心。省心指的是大数据服务与 Hadoop 社区的兼容性,这个兼容性能够让迁移的成本最小甚至无感知。放心指的是大数据服务有强大的团队支持,而不是简单的把 Hadoop 社区的东西拖来安装一下售卖。国内的公有云厂商在这方面的差别还是比较大的,有的走自研道路,可能存在社区兼容性跟进慢等情况;有的基本没有私有云大数据服务,导致自己的大数据服务没有充分锤炼。


短期来看,赵军表示,企业大数据服务的公有云、混合云和多云模式将共同存在。长期来看,公有云和私有云架构将逐渐趋同,甚至提供一致的体验,随着可信规则的建立,公有云可能会慢慢取代私有云,并且是多公有云模式,避免单一厂商锁定。未来,华为云大数据服务的发展方向是:数据安全可信,在华为云已经获得国际上主流的 ISO 27001 & 27017 & 27018 & CSA STAR 四个安全复审和认证的基础上,会在技术上继续发力,让用户进一步认可在公有云上的数据安全;支持 ARM,依托自产硬件,提供极致的成本竞争力;大数据技术更易用,降低使用门槛;与 AI 进行深度结合,让数据发挥更大的价值,让 AI 触手可得;大数据计算自动优化,实现大数据计算的“自动驾驶”。


2019-06-20 08:406889
用户头像
赵钰莹 InfoQ 主编

发布了 863 篇内容, 共 590.6 次阅读, 收获喜欢 2666 次。

关注

评论 1 条评论

发布
用户头像
观点总结:云平台的出现确实对本地大数据服务造成了一定影响,但本地大数据厂商也在积极寻求转型和突破,同样保有自己的核心竞争力(具体可参见:https://www.infoq.cn/article/Lw_DNR4NudHEXLVcLtfo)。此外,这三家Hadoop厂商的衰落并不代表整个生态存在问题,更多是这三家厂商商业模式的问题。
2019-06-20 08:45
回复
没有更多了
发现更多内容

GPU市场规模和各子市场趋势分析

Finovy Cloud

人工智能 gpu

百尺竿头更进一步 – Amazon Aurora 的读写能力扩展之 ShardingSphere-Proxy 篇

亚马逊云科技 (Amazon Web Services)

Tech 专栏

Envoy熔断限流实践(一)基于Rainbond插件实现熔断

北京好雨科技有限公司

Kubernetes PaaS envoy rainbond

IM开发技术分享:浅谈IM系统中离线消息、历史消息的最佳实践

JackJiang

网络编程 TCP协议 即时通讯IM im开发

旺链周 | 我们的价值观,我们来代言

旺链科技

区块链 活动 价值观

你真的了解IT资产管理系统(ITAM)吗?

低代码小观

资产管理 企业管理系统 CRM系统 企业管理工具 资产安全

TASKCTL 作业调度节点数超规格处理方法

TASKCTL

开源 DevOps 分布式 方法论 敏捷开发

不care工具,在大数据平台中Hive能自动处理SQL

华为云开发者联盟

sql 大数据 mapreduce hive 数据分析

一文详解:企业数字化的未来基石——微服务

穿过生命散发芬芳

微服务 4月月更

服务可用性成险企智能运维关键破局能力,博睿数据APM下场助力

博睿数据

从安全和不安全两个角度,教你如何发布对象(含各种单例代码)

华为云开发者联盟

安全 线程 高并发 发布对象 对象溢出

Android C++系列:C++最佳实践5 const

轻口味

c++ android ndk jni 4月月更

如何提升研发效能实现 10 倍研发效能提升

阿里云云效

云计算 阿里云 云原生 研发效能 研发

IndexedDB 代码封装、性能摸索以及多标签支持

网易云信

JavaScript 数据库

真香!盘点云主机三种典型应用场景

天翼云开发者社区

云主机

数据库性能优化方案

五分钟学大数据

4月月更

天翼云战略发布“5G+天翼云+AI”三生万物 赋能5G时代数字化转型升级

天翼云开发者社区

java高级用法之:JNA中的回调

程序那些事

Java Netty 程序那些事 4月月更

银行应构建主动式客户体验管理体系,助力客户价值增长

易观分析

银行 客户体验管理

车联网通信安全之 SSL/TLS 协议|车联网系列专题 06

EMQ映云科技

车联网 物联网 IoT ssl emq

打基础丨Python图像处理入门知识详解

华为云开发者联盟

Python OpenCV 图像处理 图像 二值图像

中国云终端市场发展报告发布天翼云稳居领导者地位

天翼云开发者社区

案例 认证

如何应对“科技人才热”?华为云联合慧科集团加速培养模式创新

华为云开发者联盟

教育 华为云 高校 华为云路网数字化服务 慧科

厉害了!天翼云电脑开启5G商用第一站

天翼云开发者社区

新基建下纵览全局,2+4+31+X实力出镜

天翼云开发者社区

云计算 云技术

蕉下招股书里提了26次的DTC,到底是啥?

易观分析

DTC

确定还不来看看?这样管理你的代码库既方便又省心!

Jianmu

开源 持续集成 工作流 代码管理 workflow

一个比Postman好用的工具,不试一下?

Liam

前端 后端 Jmeter Postman swagger

容器化应用:我们都经历了什么

Rayzh

Docker Kubernetes 云原生 Cloud Native

数字化赋能塑化产业,B2B电商模式引领企业增长新引擎

数商云

产业互联网 数字化转型

高层次人才一站式服务平台开发 人才综合服务平台系统

a13823115807

三家Hadoop厂商衰落启示:云大数据是颠覆者吗?_文化 & 方法_赵钰莹_InfoQ精选文章