写点什么

本地 vs 云:大数据厮杀的最终幸存者会是谁?

  • 2019-03-11
  • 本文字数:3636 字

    阅读完需:约 12 分钟

本地vs云:大数据厮杀的最终幸存者会是谁?

一家企业什么时候会决定上云?过去,这个问题的答案可能是当企业发现需要购买新的硬件进行新一轮资本投入时,往往倾向于考虑另一种替代方案,比如云,这可能更多还是从成本方面考虑;或者,当企业出现某种弹性计算需求时,云平台是非常好的实现 IT 资源“削峰”的方案。


不同于现有技术边界的“替换”,如今,这个问题的答案可以再加上一条:技术边界的“扩张”。当企业需要某种能力,比如 AI 或者大数据,但自身技术实力达不到或者企业核心竞争力不在技术本身,此时就可能会考虑上云,甚至这已经成为不少企业选择云平台的重要原因。通过选择云平台,企业实现了自己技术边界的扩张,从而为业务边界扩张提供技术上的保障。


过去几年,云平台大数据服务越来越成熟,单就这一项,主流云厂商可提供的服务列表就达到数十种,本地大数据服务的声音似乎越来越弱,这在 Cloudera 与 Hortonworks 合并之后尤为明显。有分析人士指出,Hadoop 与 Spark/Flink 等流技术的融合已经在云平台发生,这让 Cloudera 和 Hortonworks 的基础产品出现落后。巧合的是,Spark 商业化公司 DataBricks 选择了一条不同于 Cloudera 与 Hortonworks 的软件发行之道,DataBricks 一直坚持走云上订阅方式,从而在商业上更加领先。据此,本地大数据服务是否进入消失倒计时?云平台大数据服务最终到底会趋向多云、混合云还是单一公有云?集群规模增大,上云成本将难以承受是误区还是事实?


InfoQ 将就上述问题展开系列探讨,追踪采访数位行业内云计算和大数据相关方向技术专家,从他们的观点中获取答案。本期采访嘉宾——阿里云智能通用计算平台负责人关涛。

云平台 vs 本地大数据服务

在对比云平台和本地大数据服务之前,我们先来探讨一个基本问题:不同量级、不同技术能力的企业是否都适合上云,这也是企业上云之前必须想明白的问题。我们经常听到一句话:未来的云计算会成为像水电煤一样的基础设施,暂且不论这句话是否完全正确,中国目前的上云进程的确在加快,如果要成为必备基础设施,势必需要匹配所有量级、所有技术能力的企业。


对于互联网初创型企业,其特点是业务模式和规模高度不确定,数据量小,计算场景不确定,资金有限且没有自己的数据技术力量。关涛表示,对这类型企业而言,云大数据服务可以帮助降低大数据使用门槛,让企业将有限的人力和物力都放在业务层面,快速搭建并为不确定的未来发展预留弹性能力。这种类型的客户的需求关键字是:灵活和全面。


对于中大型互联网企业,其通常拥有自己的集群和数据,业务相对稳定且有 SLA 要求,甚至具备非常成熟的数据团队,这部分企业的技术能力或许足够满足业务需求,上云所能带来的好处就是降低甚至免除运维,保障 SLA 并提升安全能力,同时在性能、弹性等方面提供更低成本的服务。 需求关键字:稳定和成本。


对于传统客户,这部分企业往往更加谨慎,且原有数据中心较为庞大,整体迁移需要考虑的因素非常多,通常需要一整套解决方案,这部分企业往往也最在意云计算的成本、稳定性和安全性等问题。需求关键字:解决方案。

成本

云计算本身是一个需要重投资的领域,虽然有不少公司加入,但排名靠前的依旧集中于几家资本和技术力量比较雄厚的公司。相对于本地大数据服务,云平台大数据服务的性能、稳定性、成本和安全性一直是讨论的焦点。关涛表示,云厂商在数据中心选址基建(例如需要综合考虑电力成本和容量因素)、硬件建设、带宽网络建设(例如需要独立双链路网络保证)、存储、CDN 分发、安全加固等方面都投入了巨大精力,资本投入在百亿甚至千亿级别,中小企业自建服务的资本和技术投入显然无法达到这一程度。


对于中小企业而言,上云是个相对轻松的话题,首先数据资产量小尚可轻松挪动,且可享受云厂商带来的技术优势;其次,业务体量相对较小,整体使用成本较低。但是,不少人认为“当集群规模达到一定程度,云平台的成本会变得非常高”。对此,关涛认为,虽然云计算是个按需付费的资源,但小型数据中心的硬件启动成本并不低,如果企业自行搭建,还需要考虑其中的人力成本,这部分隐性成本经常被忽略。


从软件层面来看,主流云厂商在技术层面的投入非常大,这不仅仅是技术研发层面的资金支持,阿里云平台所提供的服务大都在内部业务经过长时间试运行,达到稳定以后才开放给用户,这是普通公司很难达到的,尤其是中小企业的基础设施上云很难投入到这个级别,集中力量打造业务层面的差异性优势才是这类型企业的立足关键,而不是纠结于底层的基础设施。


当然,如果企业具备一定线下集群,上云确实需要一定工作量和迁移成本,这包括网络打通、数据、作业、应用迁移等。线下规模越大,工作量就越大,这是目前阻碍企业上云的重要挑战。关涛表示,这部分工作其实是阶段性的,随着云技术的发展,企业可以直接或间接享受技术红利。此外,云厂商提供了不少迁移技术,比如多种类型的数据运输与搬迁工具,基于专线的数据上传和混合云技术等。

安全

安全是企业对云计算最早也是最大的顾虑,上云肯定无法完全规避安全风险,但如果和自建机房相比,云平台相当于多了一重保险。如果企业自建机房,部署某个版本的 Linux 系统,也不见得将补丁打全,同样存在安全风险。关涛表示,阿里云在安全方向(包括内核漏洞修补、DDos 防护、主动漏洞扫描、权限管理、隐私保护等)上有非常大的投入,安全性比自建要好的多。

云厂商 vs 云上自建大数据服务

对于一些互联网企业而言,并不纠结是否上云,而是在考虑选择云厂商提供的大数据服务还是选择基于云平台自建,这些企业往往具备一定技术能力并拥有原始业务积累。关涛认为,从业界来看,美国大多数互联网企业已经放弃自建数据中心而大规模应用云技术,例如 NetFlix 已经将所有业务迁移至公有云;专注专有云和 IaaS 的 Cloudera 和 Hortonworks 已经合并过冬。


从发展趋势来看,这是一个云服务逐步成熟与客户认知逐步发展的过程,就好比每一项新技术都经过了长期市场论证一样。关涛认为,客户认知应该会从最开始的怀疑(安全性、稳定性等)到逐步尝试,到上云,再到大规模依赖;从数据中心和主机托管,到依赖 IaaS,再到大规模应用无服务计算、PaaS 和 SaaS;从专有云部署到混合云,再到公有云。


其次,随着大数据与 AI 技术的发展成熟,云厂商在该领域的竞争优势已经逐步从“能做”变成“又快又好”。云计算厂商的规模优势能够建立更高的竞争门槛,这是很多企业自建所达不到的。

混合云和多云皆是过程,单一云平台可能是主流

当企业确定选择云厂商提供的大数据服务时,又会出现新的问题:如何从这么多种云平台大数据服务中选择最符合自己业务发展需求的?是选择混合云、多云还是单一公有云平台?


去年,一向对混合云不感兴趣的 AWS 推出了不少混合云服务,这让不少企业开始推测云计算的未来将是混合云或者多云。对此,关涛更倾向于多云和混合云皆是中间过程,最终的大方向应该是单一公有云的观点。他补充道,无论是混合云还是多云都存在跨云管理的问题,用户需要适配一套或者多套云系统,并将系统间数据和业务打通协调,比本地或者单一云平台更加复杂。


现阶段,依照用户需求不同,本地部署、混合云(作为中间形态)与云平台部署三种情况都可能出现。但是,长期来看,随着云平台的逐渐成熟和用户认可,从成本和效率角度出发,单一云平台或许会是主流。


关于公有云平台,企业主要顾虑的问题就是单一供应商绑定。一旦绑定,数据和业务迁移困难,后续发展可能缺乏选择;一旦云平台出现故障,是否有异构容灾能力,是否会对业务造成不可逆的影响等。


关涛认为,如今的云服务分层解耦越来越清晰,各基础服务接口未来会更加标准,例如容器化和 K8S 等,这些标准化服务会大幅降低用户被单一云平台绑定的顾虑。此外,主流云厂商已经在提供一定程度的异构容灾能力,例如阿里云的 3AZ 方案,可以保证跨数据中心的可靠性,技术上能够满足异构容灾需求;如果用户追求极致容灾能力,有可能选择混合云或者多家云厂商,这需要在多云平台之上,再做一层数据管理和业务同步逻辑,会给架构带来很大的技术和成本压力。当然,这还最终取决于用户的需求,只是目前这种选择应该比较少,例如,在金融数据库领域,企业很少同时选择两种数据库方案。

结语

从长线来看,关涛认为,用户自建本地大数据服务会逐渐消亡。就国外云计算的发展进程来看,很多大企业选择上云看重的可能并不是 IaaS 层面的能力,而是大数据和 AI 等偏上层的能力,这些现象足以说明用户不仅会用 IaaS 的能力,并且可能会被上层能力吸引。


据此,阿里云大数据服务接下来将集中对如下几方面进行改进:一是作为大数据引擎,随着数据爆发式增长和计算的无处不在,性能、成本、扩展性和稳定性仍然是技术重点;二是非文本类数据的处理能力,包括识别、处理音、视、图等新数据格式,例如短视频推荐场景;三是非关系型数据处理,例如图计算、Graph Embedding;四是 AI for BigData,比如在海量数据的前提下,基于 AI 的智能数据管理、智能建模与数据优化等。


各位 InfoQ 的网友,你如何看待云平台和本地大数据服务之间的关系呢?你所在的企业又是如何选择的呢?


2019-03-11 09:076189
用户头像
赵钰莹 极客邦科技 总编辑

发布了 897 篇内容, 共 686.6 次阅读, 收获喜欢 2696 次。

关注

评论

发布
暂无评论
发现更多内容

面试半月,阿里三面挂在微服务,我整个人直接麻了

Java永远的神

程序员 微服务 程序人生 Java 面试 架构师

企业统一门户 | WorkPlus深度集成,优化企业管理模式

BeeWorks

DPDK性能影响因素分析

C++后台开发

后台开发 虚拟化 DPDK VPP C++开发

尹博学:OceanBase Cloud正式开服,助力全球中小企业数智化升级

OceanBase 数据库

解析 RocketMQ 业务消息--“顺序消息”

阿里巴巴中间件

阿里云 RocketMQ 云原生 消息队列

基础+进阶+源码+实战,阿里SpringCloud Alibaba全解手册限时开源~

Java全栈架构师

程序员 面试 微服务 架构师 SpringCloud

蛇行矩阵 蛇形填数 回形取数 蛇行系类(C语言详解+图解)

Five

c 算法题 8月月更

兼具高效与易用,融云 IM 即时通讯长连接协议设计思路

融云 RongCloud

即时通讯 协议

IoT设备消息洪峰怎么扛? 阿里云AIoT消息队列深度解读——实践类

阿里云AIoT

nosql 算法 物联网 存储 消息中间件

浅谈 malloc 函数在单片机上的应用

矜辰所致

malloc 内存管理 8月月更

开源交流丨批流一体数据集成框架ChunJun数据传输模块详解分享

袋鼠云数栈

IoT亿级设备接入层建设实践——实践类

阿里云AIoT

安全 网络协议 物联网 存储 网络架构

A tour of gRPC:08 - gRPC 反射 与 Evans 客户端

BUG侦探

gRPC RPC protocolBuffer

万物皆可集成系列:低代码释放用友U8+深度价值(2)—数据拓展应用

葡萄城技术团队

低代码 用友

企业即时通讯怎样为企业实现移动办公效率的极致化?

BeeWorks

全网独一份!清华大牛联合众多一线大厂架构师整合的Java面试突击手册开源

程序员小毕

程序员 程序人生 JVM 高并发 java面试

2022年十大知名堡垒机品牌你真的知道吗?

行云管家

网络安全 数据安全 堡垒机 堡垒机品牌

2022年中国小微信贷市场发展分析

易观分析

市场分析 小微信贷 易观

自从外包干了七年,废了.....!

退休的汤姆

Java 面经 社招 Java工程师 秋招

代码diff服务改进方案

转转技术团队

测试平台开发 codediff工具

打补丁是什么意思?如何快速对云主机批量打补丁?用什么软件?

行云管家

运维 云主机 IT运维 打补丁

大型LED显示屏怎样做好保养维护

Dylan

LED显示屏 led显示屏厂家

兆骑科创双创服务平台,留学生海外创新创业大赛,人才引进

兆骑科创凤阁

Python自学教程3-英语不好,变量怎么命名

和牛

Python 测试 8月月更

袋鼠云思枢:数栈DTinsight,创新升级,全新出发,驶入数智转型新赛道

袋鼠云数栈

OceanBase&ChunJun联合Meetup丨邀您齐聚杭州,共享开源盛会

袋鼠云数栈

旺链科技荣登“长三角产业区块链企业30强”!

旺链科技

区块链 产业区块链 创新应用

MQTT协议详解及v5.0实践——实践类

阿里云AIoT

物联网 调度 网路协议 网络性能优化 网路架构

兆骑科创高层次人才引进服务平台,创业大赛,云路演

兆骑科创凤阁

画出“伦勃朗光线”:vivo的夜色4K探索之旅

脑极体

本地vs云:大数据厮杀的最终幸存者会是谁?_云原生_赵钰莹_InfoQ精选文章