NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

三家 Hadoop 厂商衰落启示:云大数据是颠覆者吗?

  • 2019-06-20
  • 本文字数:3915 字

    阅读完需:约 13 分钟

三家Hadoop厂商衰落启示:云大数据是颠覆者吗?

今年 5 月底,MapR被曝融资困难,可能在不久之后关闭,这个曾经估值高达 10 亿美元的 Hadoop 赛道的有力挑战者或将就此衰落。随后,同样围绕 Hadoop 进行商业化落地的Cloudera股价在 6 月 6 日(美东时间)开盘后暴跌 43%,这些老牌 Hadoop 供应商的落败一定程度上被认为与云厂商的崛起有关。然而,Hadoop 生态厂商发展到这一步到底与哪些因素有关?这是否意味着整体生态开始走下坡路?


三大 Hadoop 厂商衰落

在围绕Hadoop进行商业化的厂商中,Cloudera、Hortonworks 和 MapR 曾是最为外界所关注的对象,直到 Cloudera 和 Hortonworks宣布进行全股合并时,业界大部分声音是看好的。Syncsort首席技术官指出,虽然 Hortonworks 的产品专注于物联网和流数据场景,Cloudera 专注于数据科学、机器学习和人工智能。但在她看来,这可以使合并取得成功,因为合并后的公司将比二者中的任何一个都发展得更快,走得更远。


合并后不久,Cloudera 宣布的收入比分析师预测少了 6900 万到 8900 万美元。与此同时,公司首席执行官 Tom Reilly、联合创始人兼 CSO Mike Olson 双双宣布辞职。该公司股价随即暴跌 40%。


至于 MapR,其商业化的主要途径是提供优于开源 Hadoop 的特性,比如其创始人 M.C.Srivas 在公司创建伊始就将 Hadoop 文件系统 HDFS 进行了重构,兼容 Hadoop 协议的同时保持闭源,一度给外界造成技术实力优于整个 Hadoop 社区的感觉,可惜的是用户对此并不买账,导致其融资困难,甚至开始裁员并计划关闭硅谷总部。


对此,一位不愿意透露姓名的云计算领域专家在接受 InfoQ 采访时表示,开源颠覆了传统软件,云计算又颠覆了开源厂商。大数据的市场空间本身存在,但是随着云计算厂商的接入,确实削弱了传统大数据厂商的盈利能力。云厂商对传统大数据厂商冲击太大,因为总体成本更低,可获得性更容易,而这三家大数据厂商并没有提供相比云计算厂商大数据能力的差异化点。


当然,这三家围绕 Hadoop 进行商业化的厂商的衰落并不代表整个 Hadoop 生态的陨落,只能说明这样的商业化路径存在问题(不要将厂商和生态混为一谈)。 专家指出,过去,开源对传统软件是一种颠覆式的影响,在开源尤为活跃的大数据技术领域采用传统软件的商业化模式是一种逆势而为,云计算的兴起正在对开源产生巨大影响,正如Clint Sharp 所指出的,“Hadoop 的主要应用场景一直是廉价的存储。然而,有了云之后,存储变得更廉价,更何况 S3+EMR 和其他服务的用户体验还提高了千倍不止。”

云厂商的颠覆姿态

在企业逐步云化的过程中,云厂商的颠覆者姿态让其受到了诸多指责,比如开源杀手等,但这并没有阻碍企业云化的进程,大数据服务公司也在往云平台的方向演进,比如 Cloudera 与 Hortonworks 合并被认为是在一定程度上提升云服务的竞争力。但是,本地大数据厂商难以独立提供云大数据服务所依赖的全部基础设施资源,一般会集成到各大公有云平台,比如 MongoDB 提供的 Atlas 就与众多公有云厂商合作。因此,在各大公有云平台上,可以看到越来越多本地大数据服务商提供的服务。


那么,云厂商的出现为什么会对这一领域造成如此影响呢?专家认为,首先要从大数据的本源谈起,大数据的本源是需要处理的数据集远远大于单台物理机能够存储和处理的数据量。在这种情况下,出现了两个技术:一是跨服务器存储的分布式文件系统HDFS(当然,最早来自于谷歌论文);二是多机器处理的计算框架。这种体系在大数据发展的早、中期起到了非常大的作用,就是把大批量中低等级的硬件系统集成起来以处理海量数据。


在实践过程中,这种架构逐渐出现内在的不均衡。简单来说,物理机的计算和存储比例是固定的,但是从应用视角来看,计算和存储的比例关系往往是动态的,有些公司计算过剩,有些公司存储过剩,这导致硬件选型成为一个很大的挑战。同时,对于长久存在的大数据系统来说,新老硬件组成的非均质系统也存在负载均衡等管理上的挑战。


随着云架构的发展,无论是公有云,还是私有云,特别是公有云,可以实现存储与计算分离。IaaS 层将计算、存储、网络作为资源动态提供给用户消费,这成为一个最佳实践,完美消除了计算和存储的动态均衡问题。从最优化的角度来看,相对于传统的计算、存储一体化的大数据系统,云平台大数据服务无疑存在一些开销,但是这种形态让大数据集群建设初期要考虑的计算和存储匹配,网络设计等问题都“推迟决策”了,换言之就是不用那么早考虑,在具体业务使用时随用随取,这为业务带来了极大的灵活性。


从这个角度看,基于云架构的大数据系统,本质上提供了灵活性,而对数据业务本身而言,灵活性、动态性恰好是根本,那么基于云架构的大数据服务刚好契合了这些特征。大数据云服务的本质优势是享受更低成本、更快的技术更新。在过往与企业大数据团队打交道的过程中,专家发现其自建的大数据平台还在使用两年以前的开源大数据组件,因为人员的不稳定造成其不敢轻易进行技术升级,或者说没有能力升级,维护的包袱就会越来越重。


综上,业内专家向 InfoQ 表示,相比于本地大数据服务,云大数据服务灵活的本质是计算和存储分离,本质优势是极大得降低了成本,包括环境成本,节省搭建机房,风火水电,网络,操作系统等的时间;研发成本,节省服务搭建,研究周边依赖,可靠性部署,安全对接等的时间;人力成本,大数据运维需要非常专业的人才能胜任,企业应该聚焦在业务上而不是大数据平台的运维上;运行成本,大数据云服务厂家和基础设施的配合可以做到最优,尽可能减少资源消耗。

选用原则

在过往与企业用户打交道的过程中,完全依靠本地大数据服务,选择部分云供应商的大数据服务,在公有云的基础设施之上自建大数据服务的用户皆而有之。


就此现状,InfoQ 采访了华为云布道师赵军。他表示,大数据框架中的服务本身对基础设施并没有强绑定要求,而当前云端的性能、可靠性、可运维性已经足够高。就服务本身而言,所有大数据服务都适合在云端运行,企业应该根据业务类型进行区分。如果业务可以上云,则所有都可使用云端大数据服务。


在具体选用上,可以结合成本构成分析大数据平台的使用,包括如下几方面:


  • 风、火、水、电数据中心的成本

  • IaaS 成本

  • 大数据软件栈的成本

  • 运维大数据软件栈的成本

  • 使用大数据软件栈的团队的成本


其中,大数据软件栈和运维其的成本有些关系,有些用户完全通过开源软件实现,但是实际上付出了极大的人力成本。无论如何,不管是自建还是基于公有云,以上成本都是显性存在的,公有云可以省去一些大数据软件栈搭建及运维的成本,前两项成本则是购买公有云服务和自建的区别。此外,自建服务的弹性较小,云平台可以随时提供弹性能力。


至于云平台大数据服务的价格高昂与否,其实完全取决于公有云服务的定价。对于那些在 IaaS 层面采用自己设计、生产的 CPU、网络、存储等基础设施的公有云厂商来说,往往对于超大客户有比较大的让利能力。


对于不同类型的企业,选择大数据平台服务时关注的点会差异很大。举例来说,更关注成本且需要削峰的,建议优先选择 Serverless 服务;更关注资源隔离和独享的,建议选择包周期的资源类型服务;对于已有大数据平台经验的企业,则优选通用开源大数据开发平台类服务;对接口要求简单通用的,则优选 Serverless 服务。


大数据社区的多样性,导致了选择的多样性。具体原因可能很难一概而论,有的公司想总有一天要建立自己的私有云设施,所以仅希望公有云提供 IaaS;有的公司是因为已经在私有云方面具备很长的历史,团队、经验等都是现成的,因此在公有云的 IaaS 上自行搭建大数据服务。但是,对于绝大部分企业来讲,使用公有云的大数据服务会更省心,成本更低。


赵军表示,华为云目前提供通用的开源大数据开发平台,例如MRS(大数据平台)、DWS(数据仓库)、CSS(搜索引擎)等,帮助原本使用开源大数据平台的用户无缝迁移到华为云大数据平台;Serverless 的大数据服务,例如DIS(数据接入)、CDM(数据迁移)、CS(实时流处理)、CloudTable(表格存储)、DLI(数据湖探索)等,帮助客户按需使用大数据平台资源,支持数据采集、接入、存储、分析等,最低成本帮助客户解决削峰场景,并且与 AI 很好结合,可以让用户更容易使用 AI 技术;数据管理平台,例如DAYU(数据治理),帮助客户解决数据治理相关的问题;全栈大数据服务,包括多种专业化单一引擎的大数据服务;总之,主要意图是希望降低企业获取大数据服务的门槛,做到按需使用。在接口和应用开发体验方面完全与社区一致,同时提供按需、弹性、运维等支持,包括论坛等。


总体来看,企业如何选择取决于公有云运营者能否提供充分的迁移支持,让大数据服务的消费者省心、放心。省心指的是大数据服务与 Hadoop 社区的兼容性,这个兼容性能够让迁移的成本最小甚至无感知。放心指的是大数据服务有强大的团队支持,而不是简单的把 Hadoop 社区的东西拖来安装一下售卖。国内的公有云厂商在这方面的差别还是比较大的,有的走自研道路,可能存在社区兼容性跟进慢等情况;有的基本没有私有云大数据服务,导致自己的大数据服务没有充分锤炼。


短期来看,赵军表示,企业大数据服务的公有云、混合云和多云模式将共同存在。长期来看,公有云和私有云架构将逐渐趋同,甚至提供一致的体验,随着可信规则的建立,公有云可能会慢慢取代私有云,并且是多公有云模式,避免单一厂商锁定。未来,华为云大数据服务的发展方向是:数据安全可信,在华为云已经获得国际上主流的 ISO 27001 & 27017 & 27018 & CSA STAR 四个安全复审和认证的基础上,会在技术上继续发力,让用户进一步认可在公有云上的数据安全;支持 ARM,依托自产硬件,提供极致的成本竞争力;大数据技术更易用,降低使用门槛;与 AI 进行深度结合,让数据发挥更大的价值,让 AI 触手可得;大数据计算自动优化,实现大数据计算的“自动驾驶”。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-06-20 08:406919
用户头像
赵钰莹 InfoQ 主编

发布了 874 篇内容, 共 605.2 次阅读, 收获喜欢 2671 次。

关注

评论 1 条评论

发布
用户头像
观点总结:云平台的出现确实对本地大数据服务造成了一定影响,但本地大数据厂商也在积极寻求转型和突破,同样保有自己的核心竞争力(具体可参见:https://www.infoq.cn/article/Lw_DNR4NudHEXLVcLtfo)。此外,这三家Hadoop厂商的衰落并不代表整个生态存在问题,更多是这三家厂商商业模式的问题。
2019-06-20 08:45
回复
没有更多了
发现更多内容

Flink 的底层API

五分钟学大数据

flink 7月日更

模块2作业

cherrycheek

视频云峰会|“超视频化时代的全景创新” 是什么?

阿里云视频云

阿里云 音视频 视频 视频解码 视频制作

IPFS挖矿算力排行榜?IPFS挖矿排行榜?

【LeetCode】从前序与中序遍历序列构造二叉树Java题解

Albert

算法 LeetCode 7月日更

Ubuntu Server 20.04安装KVM虚拟机

玏佾

ubuntu 虚拟机 Ubuntu20.04 kvm

双非小伙暑期实习斩获腾讯WXG offer,这不比博人传燃?

北游学Java

Java 腾讯 面试

极光开发者周刊【No.0702】

极光JIGUANG

一文讲懂Hive高可用、HiveServer2高可用及Metastore高可用

白程序员的自习室

数据仓库 7月日更 HiveServer2高可用 Metastore高可用 Hive高可用

辩证|北鲲云和你一起探讨关于生命科学发展的意义

北鲲云

垃圾回收器的前世今生

中原银行

垃圾回收

《啊哈C语言!》学习笔记(1)

Nydia

GitHub霸榜月余的24万字Java面试手册,竟是阿里机密

Java 面试

每天学习10个实用Javascript代码片段(一)

devpoint

JavaScript LocalStorage 7月日更

数字经济时代,国家与国家的核心竞争力就是算力

CECBC

架构实战营 模块一作业

面向对象的猫

「架构实战营」

架构实战营模块1课后作业

蔸蔸

基于MaxCompute快速打通数据仓库和数据湖的湖仓一体实践

阿里云大数据AI技术

别再往收藏夹怼资源了,收好这个视频创作导航网站就够了。

彭宏豪95

效率 视频 导航网站 视频制作

为什么nginx主机的io使用率会100%?

BUG侦探

nginx proxy_buffering docker镜像

必看!史上最全云原生全景图解读攻略来啦

尔达Erda

容器 微服务 运维 云原生 技术人

分布式认知工业互联网

CECBC

动手训练属于自己的无人车,这个超强服务现已开源!

亚马逊云科技 (Amazon Web Services)

GrowingIO Design 组件库搭建之Select组件

GrowingIO技术专栏

select 组件实现 virtualList

5分钟速读之Rust权威指南(三十五)状态模式

wzx

rust

CDH安装搭建(一)

大数据技术指南

CDH 7月日更

多维数据分析(OLAP)技术选型(1):对什么进行选型

水滴

OLAP 通信协议 技术选型 多维分析 存储格式

排序——插入排序

若尘

数据结构 排序 排序算法 插入排序

疯了吧!这帮人居然用 Go 写“前端”?(一)

尔达Erda

开发者 云原生 大前端 后端 开发

第一模块作业

晨晨

架构实战营

为什么你总是买了很多不需要的东西?

石云升

消费者 7月日更

三家Hadoop厂商衰落启示:云大数据是颠覆者吗?_文化 & 方法_赵钰莹_InfoQ精选文章