NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

本地 vs 云:大数据厮杀的最终幸存者会是谁?

  • 2019-03-11
  • 本文字数:3636 字

    阅读完需:约 12 分钟

本地vs云:大数据厮杀的最终幸存者会是谁?

一家企业什么时候会决定上云?过去,这个问题的答案可能是当企业发现需要购买新的硬件进行新一轮资本投入时,往往倾向于考虑另一种替代方案,比如云,这可能更多还是从成本方面考虑;或者,当企业出现某种弹性计算需求时,云平台是非常好的实现 IT 资源“削峰”的方案。


不同于现有技术边界的“替换”,如今,这个问题的答案可以再加上一条:技术边界的“扩张”。当企业需要某种能力,比如 AI 或者大数据,但自身技术实力达不到或者企业核心竞争力不在技术本身,此时就可能会考虑上云,甚至这已经成为不少企业选择云平台的重要原因。通过选择云平台,企业实现了自己技术边界的扩张,从而为业务边界扩张提供技术上的保障。


过去几年,云平台大数据服务越来越成熟,单就这一项,主流云厂商可提供的服务列表就达到数十种,本地大数据服务的声音似乎越来越弱,这在 Cloudera 与 Hortonworks 合并之后尤为明显。有分析人士指出,Hadoop 与 Spark/Flink 等流技术的融合已经在云平台发生,这让 Cloudera 和 Hortonworks 的基础产品出现落后。巧合的是,Spark 商业化公司 DataBricks 选择了一条不同于 Cloudera 与 Hortonworks 的软件发行之道,DataBricks 一直坚持走云上订阅方式,从而在商业上更加领先。据此,本地大数据服务是否进入消失倒计时?云平台大数据服务最终到底会趋向多云、混合云还是单一公有云?集群规模增大,上云成本将难以承受是误区还是事实?


InfoQ 将就上述问题展开系列探讨,追踪采访数位行业内云计算和大数据相关方向技术专家,从他们的观点中获取答案。本期采访嘉宾——阿里云智能通用计算平台负责人关涛。

云平台 vs 本地大数据服务

在对比云平台和本地大数据服务之前,我们先来探讨一个基本问题:不同量级、不同技术能力的企业是否都适合上云,这也是企业上云之前必须想明白的问题。我们经常听到一句话:未来的云计算会成为像水电煤一样的基础设施,暂且不论这句话是否完全正确,中国目前的上云进程的确在加快,如果要成为必备基础设施,势必需要匹配所有量级、所有技术能力的企业。


对于互联网初创型企业,其特点是业务模式和规模高度不确定,数据量小,计算场景不确定,资金有限且没有自己的数据技术力量。关涛表示,对这类型企业而言,云大数据服务可以帮助降低大数据使用门槛,让企业将有限的人力和物力都放在业务层面,快速搭建并为不确定的未来发展预留弹性能力。这种类型的客户的需求关键字是:灵活和全面。


对于中大型互联网企业,其通常拥有自己的集群和数据,业务相对稳定且有 SLA 要求,甚至具备非常成熟的数据团队,这部分企业的技术能力或许足够满足业务需求,上云所能带来的好处就是降低甚至免除运维,保障 SLA 并提升安全能力,同时在性能、弹性等方面提供更低成本的服务。 需求关键字:稳定和成本。


对于传统客户,这部分企业往往更加谨慎,且原有数据中心较为庞大,整体迁移需要考虑的因素非常多,通常需要一整套解决方案,这部分企业往往也最在意云计算的成本、稳定性和安全性等问题。需求关键字:解决方案。

成本

云计算本身是一个需要重投资的领域,虽然有不少公司加入,但排名靠前的依旧集中于几家资本和技术力量比较雄厚的公司。相对于本地大数据服务,云平台大数据服务的性能、稳定性、成本和安全性一直是讨论的焦点。关涛表示,云厂商在数据中心选址基建(例如需要综合考虑电力成本和容量因素)、硬件建设、带宽网络建设(例如需要独立双链路网络保证)、存储、CDN 分发、安全加固等方面都投入了巨大精力,资本投入在百亿甚至千亿级别,中小企业自建服务的资本和技术投入显然无法达到这一程度。


对于中小企业而言,上云是个相对轻松的话题,首先数据资产量小尚可轻松挪动,且可享受云厂商带来的技术优势;其次,业务体量相对较小,整体使用成本较低。但是,不少人认为“当集群规模达到一定程度,云平台的成本会变得非常高”。对此,关涛认为,虽然云计算是个按需付费的资源,但小型数据中心的硬件启动成本并不低,如果企业自行搭建,还需要考虑其中的人力成本,这部分隐性成本经常被忽略。


从软件层面来看,主流云厂商在技术层面的投入非常大,这不仅仅是技术研发层面的资金支持,阿里云平台所提供的服务大都在内部业务经过长时间试运行,达到稳定以后才开放给用户,这是普通公司很难达到的,尤其是中小企业的基础设施上云很难投入到这个级别,集中力量打造业务层面的差异性优势才是这类型企业的立足关键,而不是纠结于底层的基础设施。


当然,如果企业具备一定线下集群,上云确实需要一定工作量和迁移成本,这包括网络打通、数据、作业、应用迁移等。线下规模越大,工作量就越大,这是目前阻碍企业上云的重要挑战。关涛表示,这部分工作其实是阶段性的,随着云技术的发展,企业可以直接或间接享受技术红利。此外,云厂商提供了不少迁移技术,比如多种类型的数据运输与搬迁工具,基于专线的数据上传和混合云技术等。

安全

安全是企业对云计算最早也是最大的顾虑,上云肯定无法完全规避安全风险,但如果和自建机房相比,云平台相当于多了一重保险。如果企业自建机房,部署某个版本的 Linux 系统,也不见得将补丁打全,同样存在安全风险。关涛表示,阿里云在安全方向(包括内核漏洞修补、DDos 防护、主动漏洞扫描、权限管理、隐私保护等)上有非常大的投入,安全性比自建要好的多。

云厂商 vs 云上自建大数据服务

对于一些互联网企业而言,并不纠结是否上云,而是在考虑选择云厂商提供的大数据服务还是选择基于云平台自建,这些企业往往具备一定技术能力并拥有原始业务积累。关涛认为,从业界来看,美国大多数互联网企业已经放弃自建数据中心而大规模应用云技术,例如 NetFlix 已经将所有业务迁移至公有云;专注专有云和 IaaS 的 Cloudera 和 Hortonworks 已经合并过冬。


从发展趋势来看,这是一个云服务逐步成熟与客户认知逐步发展的过程,就好比每一项新技术都经过了长期市场论证一样。关涛认为,客户认知应该会从最开始的怀疑(安全性、稳定性等)到逐步尝试,到上云,再到大规模依赖;从数据中心和主机托管,到依赖 IaaS,再到大规模应用无服务计算、PaaS 和 SaaS;从专有云部署到混合云,再到公有云。


其次,随着大数据与 AI 技术的发展成熟,云厂商在该领域的竞争优势已经逐步从“能做”变成“又快又好”。云计算厂商的规模优势能够建立更高的竞争门槛,这是很多企业自建所达不到的。

混合云和多云皆是过程,单一云平台可能是主流

当企业确定选择云厂商提供的大数据服务时,又会出现新的问题:如何从这么多种云平台大数据服务中选择最符合自己业务发展需求的?是选择混合云、多云还是单一公有云平台?


去年,一向对混合云不感兴趣的 AWS 推出了不少混合云服务,这让不少企业开始推测云计算的未来将是混合云或者多云。对此,关涛更倾向于多云和混合云皆是中间过程,最终的大方向应该是单一公有云的观点。他补充道,无论是混合云还是多云都存在跨云管理的问题,用户需要适配一套或者多套云系统,并将系统间数据和业务打通协调,比本地或者单一云平台更加复杂。


现阶段,依照用户需求不同,本地部署、混合云(作为中间形态)与云平台部署三种情况都可能出现。但是,长期来看,随着云平台的逐渐成熟和用户认可,从成本和效率角度出发,单一云平台或许会是主流。


关于公有云平台,企业主要顾虑的问题就是单一供应商绑定。一旦绑定,数据和业务迁移困难,后续发展可能缺乏选择;一旦云平台出现故障,是否有异构容灾能力,是否会对业务造成不可逆的影响等。


关涛认为,如今的云服务分层解耦越来越清晰,各基础服务接口未来会更加标准,例如容器化和 K8S 等,这些标准化服务会大幅降低用户被单一云平台绑定的顾虑。此外,主流云厂商已经在提供一定程度的异构容灾能力,例如阿里云的 3AZ 方案,可以保证跨数据中心的可靠性,技术上能够满足异构容灾需求;如果用户追求极致容灾能力,有可能选择混合云或者多家云厂商,这需要在多云平台之上,再做一层数据管理和业务同步逻辑,会给架构带来很大的技术和成本压力。当然,这还最终取决于用户的需求,只是目前这种选择应该比较少,例如,在金融数据库领域,企业很少同时选择两种数据库方案。

结语

从长线来看,关涛认为,用户自建本地大数据服务会逐渐消亡。就国外云计算的发展进程来看,很多大企业选择上云看重的可能并不是 IaaS 层面的能力,而是大数据和 AI 等偏上层的能力,这些现象足以说明用户不仅会用 IaaS 的能力,并且可能会被上层能力吸引。


据此,阿里云大数据服务接下来将集中对如下几方面进行改进:一是作为大数据引擎,随着数据爆发式增长和计算的无处不在,性能、成本、扩展性和稳定性仍然是技术重点;二是非文本类数据的处理能力,包括识别、处理音、视、图等新数据格式,例如短视频推荐场景;三是非关系型数据处理,例如图计算、Graph Embedding;四是 AI for BigData,比如在海量数据的前提下,基于 AI 的智能数据管理、智能建模与数据优化等。


各位 InfoQ 的网友,你如何看待云平台和本地大数据服务之间的关系呢?你所在的企业又是如何选择的呢?


2019-03-11 09:075921
用户头像
赵钰莹 InfoQ 主编

发布了 875 篇内容, 共 605.5 次阅读, 收获喜欢 2671 次。

关注

评论

发布
暂无评论
发现更多内容

零基础学习NLP-DAY2

Qien Z.

nlp 5月日更

再学习一个 Golang 专栏

escray

学习 极客时间 Go 语言 5月日更

技术笔记(语音识别-语音噪声分类)

攻城先森

噪声 5月日更 技术笔记

传统BI如何转大数据数仓

数据社

大数据 BI 5月日更

将自媒体玩得风生水起的不一定是前总统,还有可能是艺术家

zhoo299

艺术 自媒体 5月日更

GitLab Webhooks 使用

夏兮。

gitlab jenkins CI/CD WEBHOOKS

防治肥胖,AI转向

脑极体

编程思考路径2条

顿晓

5月日更 思考路径

网络攻防学习笔记 Day11

穿过生命散发芬芳

5月日更 网络攻防

吐槽对象

顿晓

对象 5月日更

⚓【Java知识晚餐】精心准备的JVM分析工具⚓

洛神灬殇

Java JVM 5月日更 JVM分析工具

微软为什么要对jdk下手?阿里对JDK的理解又是什么样的?

Java架构师迁哥

由高频护网设备漏洞引发的供应链浅思

Thrash

安全

网络协议之HTTP:HTTP 1.1与HTTP 2

程序员架构进阶

HTTP2.0 28天写作 HTTP协议 5月日更

为什么人类学家比经济学家对比特币更感兴趣

CECBC

自主品牌实力认可!浪潮云洲亮相2021年中国品牌日

浪潮云

云计算

你认识镜子里的那个自己吗?

小天同学

原则 认知 5月日更

Ansible AD-Hoc

耳东@Erdong

ansible 5月日更

学习笔记:02 | 第一个程序:教你输出彩色的文字

Nydia

学习

SaaS的前世、今生与未来 [上篇]

LigaAI

SaaS

客制化:定制专属于你的产品和服务

石云升

产品 用户 职场经验 5月日更

快速搭建接口自动化测试框架

夏兮。

Java JUnit 接口测试 rest-assured

【图片旋转】十五分钟挑战鸿蒙Codelab组件

liuzhen007

鸿蒙 5月日更

Spring Cloud Alibaba 生态学习

风翱

spring cloud alibaba 5月日更

Gradle学习笔记

ES_her0

5月日更

「技术人生」专题第1篇:什么是技术一号位?

阿里巴巴中间件

MySQL 到 ClickHouse 的高速公路

青云技术社区

MySQL 数据库 Clickhouse

这个云原生开发的痛点你遇到了吗?

阿里巴巴中间件

人证一体机产品设计

lenka

5月日更

Windows自带的功能这么好用,还装什么第三方软件?

彭宏豪95

windows 5月日更

浅析以太坊网络状态平台架构及WebSocket

devpoint

区块链 以太坊 websocket

本地vs云:大数据厮杀的最终幸存者会是谁?_云原生_赵钰莹_InfoQ精选文章