决定大数据搭建场所的重要因素是什么?

2019 年 4 月 16 日

决定大数据搭建场所的重要因素是什么?

如今,企业大数据搭建地可以在本地、公有云和私有云之间灵活选择,而这一决定的关键因素是数据安全、数据体量和业务预判。


随着云计算的逐渐成熟,很多大公司都开始创建高效、灵活的云使用环境,这些环境被部署在服务器、存储和网络资源池中,这类方案通常更具成本效益,可以提高大数据技术和高级分析的投资回报率。


当然,云计算不仅适用于类似 Facebook、Uber 这类的互联网公司,同样适用于传统企业。在此之前,企业内部团队在协作共享、大规模数据传输以及敏捷开发层面均存在不同程度的困难。如果将大数据服务搭建在云端,企业将不再需要专门的研发人员来负责基础分析,还可以更加积极主动地访问、分析和处理最新数据,甚至直接构建可视化分析。


过去几年,云平台大数据服务越来越成熟,单就这一项,主流云厂商可提供的服务列表就达到数十种,本地大数据服务的声音似乎越来越弱,这在 Cloudera 与 Hortonworks 合并之后尤为明显。实际上,云平台大数据服务和本地大数据服务各有其生存空间和适用场景,那么,这场争端的最终决定因素应该是什么?传统企业在选择大数据服务时主要会考虑哪些因素?本地大数据服务的演进方向会是什么样的呢?


InfoQ 将就上述问题展开系列探讨,追踪采访数位行业内云计算和大数据相关方向技术专家,从他们的观点中获取答案。本期采访嘉宾——百分点首席架构师黄伟。



大数据搭建地争端


大数据服务的搭建地到底是选择云端还是本地,抑或兼而有之?这个讨论一直都存在。对此,笔者也曾与某互联网云计算厂商的技术专家进行过沟通,他在谈及此事时表示,因为是技术出身,从来不敢说百分百这种事情,技术的演进趋势总是在不断调整,从端到云再到边缘计算,一定会朝着运算更高效、客户体验更优质的方向发展,最终要看整个计算链路上每个要素的技术发展及成本变化。


2009 年,百分点开始上线个性化推荐业务,自行搭建后端本地大数据平台为客户提供 SaaS 服务;2014 年,百分点基于早期积累的平台技术和产品, 为传统企业客户提供本地化大数据服务,并帮助客户最大程度实现数据效用、创造数据价值。据介绍,百分点目前仍在提供多项 SaaS 业务,因为其技术使用门槛低、扩容方便,对数据量小、安全级别不太高的场景来说是最优选择。


因此,根据多年来在数据智能领域的实践经验,百分点首席架构师黄伟总结,主要有三个因素决定企业如何选择大数据服务:数据安全级别、数据量业务发展预估。


数据安全级别


2018 年,无论是互联网公司 Facebook、打车应用 Uber 还是美国信用服务公司 Equifax 都曾爆出客户数据遭到窃取事件,不少国家和组织制定了大数据安全相关法律法规和政策,来推动大数据利用和安全保护。可以说,几乎所有行业都会面对数据安全与数据隐私问题,特别是电商、健康医疗、教育、通讯等需要直接面对 C 端用户群体的领域,对个人隐私和数据安全等问题的处理更加敏感。


传统企业考虑到自身技术能力的不足,都不可避免会选择第三方大数据服务,但也需要具备一定鉴别能力和数据安全的管控能力。


相比较云平台大数据服务,黄伟认为,本地大数据厂商无论是在架构、产品 ,还是操作规范、工作流程中,均加强了对数据安全的全面管控和保证。在数据安全层面,预防优先于弥补,对不少企业而言,数据安全不容出错,不同安全级别对应不同的方案措施,需要做好安全防护。


数据量


云平台初始进入门槛较低,所需成本比本地平台初期建设要低很多,尤其是历史负担较轻(本地原始数据量较小,迁移成本不高)的企业。但是,黄伟表示,随着企业数据规模的增大,云平台使用成本的增幅将大大超过本地平台。对企业而言,必须对数据量增长进行预判,尽早选择合适的大数据解决方案,一旦数据体量达到一定规模,何种迁移方式都需要耗费大量成本。


业务发展预估


在选用平台服务时,企业除了考虑当前的数据安全、数据体量成本,一定还要考虑未来的业务增长空间,从而综合选择服务。随着业务的发展,企业将数据应用到企业运转的各个环节,平台运转高负荷亦会持续,考虑运维、机房、扩容成本,依然是本地自建更划算。当然,企业在发展初期可以选择第三方来提供云服务,但也需要根据数据价值产出来扩充自身技术和运维团队能力,增强对数据的掌控能力,以应对未来业务增长产生的新诉求。


不难看出,云平台和本地大数据服务均有足够的细分市场,成本是这其中很重要的一个因素,且成本与数据体量密切相关。简单来说,小数据量企业更适合云平台大数据服务,大数据量则更适合本地大数据服务。


本地大数据服务的生存空间


现实中也有不少企业选择上云,但不用云供应商提供的大数据服务,这部分企业尤以中型互联网公司居多,他们具备一定技术能力,可以独立搭建云平台大数据服务并进行运维。黄伟认为,这可能还出于对安全和价格等多方考虑。云大数据服务让用户相比 IaaS 与数据更近了一步,因而会让数据安全感降低;在同等数据量增长条件下,云供应商提供的大数据服务价格更贵也可能是一个原因。


对比来看,本地大数据的优势主要还是安全性好、大数据量下成本低,适合大数据体量(高负荷)、高安全性的企业需求;云大数据服务的优势主要是小数据量下成本低(入门门槛低、运维扩容方便),适合小数据体量(低负荷),低安全性需求。云大数据服务一般由互联网寡头提供服务,产品成熟度更高;本地大数据服务在产品成熟度上亦在持续进步。


从客户群体来看,本地大数据服务厂商的客户大多来自于银行、保险、证券、政务、制造等数据敏感型传统企业客户和政府客户;而云厂商大数据服务的客户更多来自于新经济体下的中小企业(新零售、新金融等)。不同的客户群体,大数据服务选择的偏好各有不同。


因此,黄伟认为企业大数据服务的未来会是本地、云平台混合使用,不会有绝对的主流,但是针对特定群体的主流服务已经形成。


采访最后,黄伟综合分析了初创互联网企业、成熟互联网企业和线下传统企业的最优选择:


对初创互联网企业而言,前期业务试错阶段,控制成本、快速验证概念为核心需求,且还未形成一定体量,数据安全亦不是核心矛盾,快速接入云大数据平台是一个较好的选择;


对成熟的互联网企业而言,数据安全已是核心矛盾,加之数据规模较大,自建大数据平台成本较低,选择本地大数据服务厂商为其搭建为最优;


对线下传统企业而言,由于自身业务已运转多年,必然产生和积累了海量数据,大多希望利用这些大数据提高业务效率,综合考虑数据安全、数据体量和未来数据使用场景,绝大多数客户会倾向于选择本地大数据服务。首先是数据安全方面:对这类客户而言,数据安全出现一点问题,就可能决定整个企业的未来走向,亦有部分数据保密级别更高的客户,环境整体与互联网隔离,也会倾向选择更加安全可靠的本地大数据服务;其次是数据体量和未来数据使用场景方面:这类客户不只需要大数据平台的产品和技术,也在持续转变着企业经营思维,拓展业务场景,数据计算的场景繁多,平台运转高负荷亦会持续,自建是最优选择。


存在即合理,不同的技术均有其存在的必要性,经过这几轮探讨(《观点:云大数据服务一定是终极形态吗?》《本地 vs 云:大数据厮杀的最终幸存者会是谁?》),本地大数据服务与云平台大数据服务的适用场景已经非常清晰,企业可以根据自身的业务特点、发展需求和安全级别选择适合自己的方案,当然也可以进行多方选择,对数据进行合理利用。最终,让技术更好得为业务服务,而不是牵制业务发展。


2019 年 4 月 16 日 09:004561
用户头像
赵钰莹 InfoQ高级编辑

发布了 648 篇内容, 共 383.7 次阅读, 收获喜欢 2082 次。

关注

评论 1 条评论

发布
用户头像
不错呀
2019 年 04 月 16 日 22:13
回复
没有更多评论了
发现更多内容

作业2

annie

极客大学架构师训练营

【总结】框架设计之架构师实现自己架构目标的主要手段

魔曦

极客大学架构师训练营

架构师训练营第二周总结

邵帅

第二周 - 作业

Happy-Coming

架构培训 -02 学习总结 架构师实现自己架构的主要手段

刘敏

外包程序员的幸福生活

四猿外

极客大学架构师训练营第二周学习总结

竹森先生

设计模式 架构设计 极客大学架构师训练营 面向对象设计原则

架构师训练营-第二课作业-20200617-设计原则???

👑👑merlan

架构设计 软件设计

一周信创舆情观察(6.8~6.14)

统小信uos

新基建 信创

Java开发3年面试老被问到原理?不慌!SSM框架+JVM原理文档送给你

周老师

Java 程序员 面试 SSM框架 JVM原理

用故事讲技术:关于js apply、call、bind的区别,我们可以将call忘掉,只使用apply就足够了

李艺

Java 前端

Week2学习总结

铁血杰克

Spring Boot+Redis 扛住,瞬间千次重复提交(实例)

周老师

redis Spring Boot 幂等 服务Api

依赖倒置原则

金桔🍊

极客大学架构师训练营

第二周课程学习总结

Geek_a327d3

作业

Spring源码解析-Bean

云淡风轻

spring 源码

游戏夜读 | 中国移动游戏简史

game1night

架构作业-第2周

铁血杰克

架构师训练营第二周总结

hiqian

第二周总结

Thrine

第二周总结

LEAF

RPC实战与核心原理-学习笔记(4)

王传义

极客时间 - 架构师训练营 - week2 - 课堂笔记

毛聪

架构师训练营-W02S-架构设计

BlazeLuLu

极客大学架构师训练营

【喜迎端午】够强大,才够出“粽”,加入InfoQ写作平台,领取节日限定头像标识

InfoQ写作平台

写作平台 端午节 活动专区

架构师训练营第2周作业

在野

极客大学架构师训练营

02架构的方法论

ashuai1106

架构设计 极客大学架构师训练营 架构设计原则

依赖倒置原则理解

Thrine

第二周作业

王鑫龙

极客大学架构师训练营

JavaScript中删除树形结构数据里的节点

brave heart

Java

架构师训练营-第2课总结-20200613-软件设计

👑👑merlan

架构总结 软件设计

决定大数据搭建场所的重要因素是什么?-InfoQ