写点什么

5 分钟看完企业数据挑战的简史

  • 2021-01-01
  • 本文字数:2212 字

    阅读完需:约 7 分钟

5分钟看完企业数据挑战的简史

本文最初发布于 hassenchaieb.com 网站,经原作者授权由 InfoQ 中文站翻译并分享。


如今,数据生态系统正在蓬勃发展,流行名词随处可见,每天都有新产品面世发布。身在其中的人们很难看清“庐山真面目”。


在这篇文章中,我会退后一步,试着解读当前生态系统的源头。为什么我们拥有如此众多的产品,它们在现代企业中又各自适合哪些位置?当然,我会做很多简化。实际上,每家公司都是独特的,有着自己独有的需求。


2000 年代初:互联网的崛起和数据量的增长


随着互联网的兴起,企业不得不处理越来越多的数据源。公司数据被存储在许多各自不同的关系数据库中。这让公司无法快速获得关于客户、销售等领域的数据分析结果和可行见解。


一种解决方案是数据仓库,它将所有彼此孤立的关系数据库整合到一个单一的事实来源中,用来提供客户数据的 360°全景视图。



然后,许多大型科技公司开始收集海量数据,因此需要全新的数据存储和处理方式。这些工作再也不是单台计算机可以应付的了。2006 年,Hadoop 诞生。


Hadoop 是一组软件工具,可对庞大的数据集进行分布式处理(多台计算机)。


接下来,许多工程师离开了这些巨型公司,开始了自己的大数据创业,并获得了风险投资的资助。到 2010 年,大数据热潮来临。


2010 年,Gartner 将云计算列为第一大战略技术。云计算为大数据提供了必要的基础架构:足够的计算、存储和网络能力。


云提供商还为初创企业提供了一种轻松的方式来启动和扩展它们的业务(基础架构即服务),而无需企业管理自己的 IT 基础架构。



2010 年至 2015 年:云转型和现代数据仓库的成熟


不过,在 2010 年初,大多数大公司仍在犹豫不决,不知道是保留内部部署还是迁移到云端,并一直在等待市场上出现一家大型大数据服务提供商来简化云迁移工作。


只有那些在早期就采用云计算的大公司才开始投资大数据技术。事实证明,这并不是一次简单的技术迁移,而需要在全公司范围内推广数据驱动文化,增加很多新的岗位以及复杂的数据流程。


在那些年间,数据仓库迎来了模式变革。


由于数据量和数据类型的增加,以及对业务分析能力的期望升温,很多公司开始在数据仓库的 staging 层遇到瓶颈。用户通常需要数周或数月时间才能将一个新的数据源集成到“提取-转换-加载”模式中。


除了结构化的交易数据外,公司还开始使用快速变化的模式收集越来越多的行为数据。


最终,人们意识到存储成本已经比以前便宜多了,数据仓库的计算能力也有所提高。因此,在转换之前就将数据加载到仓库中是可行的办法。


行业开始发生三个转变:


  • 从 ETL(提取-转换-加载)到 ELT(提取-加载-转换)

  • 从本地部署到云:云服务提供商可以提供适合公司需求的简单而灵活的数据仓库。

  • 从 Hadoop 到全新的数据湖:数据湖是中心化的原始数据 staging 区域,(它可以是一个简单的 Amazon S3 存储库或 Google Cloud Storage,也可以具有更多功能)


此外,可以处理大量数据的基础设施的普及为物联网和连接对象的崛起铺平了道路,这些产业取得很大成果。反过来,这增加了一些公司需要处理的数据量。


2015 年-2017 年:数据管道和 AI 风潮


对大多数公司而言,大数据基础设施的主要选项已经很清楚了,现在的核心挑战在于如何轻松、快速地提取数据,以及如何快速将其提供给分析师和业务用户。


公司开始聘请数据工程师来维护现代数据仓库周围的数据管道。我们看到 Apache Airflow 之类的数据流自动化工具的兴起。这些工具使公司能够自动化数据管道的提取和转换部分。


我们看到 NoSQL 风头不再,而 SQL 正式回归,身边是一些允许对非结构化和结构化数据仓库的数据发起 SQL 查询的工具(Snowflake、BigQuery)。


“大数据”风潮开始平息了,不是因为它被人遗忘,而是因为它已经成为现实。一个新的领域吸引大多数媒体的注意力。人工智能是新的金矿。随着深度学习的发展,机器学习获得巨大的关注度。


这一风潮让 AI 的实践落地开始普及,并催生了很多数据驱动的产品。(推荐系统、可预测的维护……)。结果,由于 ML 方法走向成熟,我们看到了 DataOps 协作平台的诞生,使公司能够轻松地对业务数据用 ML 模型来做试验。


对于大型组织的评论:如果现在你还没有主动构建大数据+AI 战略(无论是自行研发还是与供应商合作),你就是在让自己被时代淘汰。——MattTurk



2018-2020:目前的挑战


从 2018 年到 2020 年:多数大型公司已开始或正在经历云端转型。


工程师一直在努力开发各种工具来更轻松、更快速地访问和处理原始数据。


  • 诸如(dbt)之类的一些工具使用户可以将 SQL 作为转换层。

  • 流处理方法越来越吸引人。


以下是今天的企业面临的一些挑战:


  • 混合云:为避免供应商锁定并优化成本,许多公司都选择混合使用私有云、公共云和内部部署的方法。

  • 数据分类和元数据管理:数据和数据源是整个系统的基础。需要对它们做适当的索引、扩充和引用,以便任何人都可以更轻松地找到它们,并知道如何使用它们。同样,我们看到机器学习管道中需要一种“功能目录”。

  • 数据质量:数据质量意味着确保在数据管道每个阶段中数据的完整性、一致性、可用性和可使用性。

  • 安全和隐私:在 Facebook 剑桥分析丑闻之后,公司和公众愈加重视隐私保护问题。GDPR(通用数据保护法规)和 CCPA(加利福尼亚消费者隐私法案)等新法规引入了新的数据跟踪和安全性约束。公司需要简单的解决方案来集中控制数据访问。企业必须跟踪和控制数据的用法。


这有现代数据基础架构的一份相当完整的参考。它是由 Matt Bornstein、Martin Casado 和 Jennifer Li 在访谈 20 多位企业数据负责人和数据专家之后制作的。



原文链接:


https://hassenchaieb.com/data-challenges-history/


2021-01-01 10:004000
用户头像
王强 技术是文明进步的力量

发布了 911 篇内容, 共 542.2 次阅读, 收获喜欢 1799 次。

关注

评论 1 条评论

发布
用户头像
需要对强子对撞器模拟数亿年产出大量无序数据集,对量子数据集高效的搜索算法。
2021-01-03 13:59
回复
没有更多了
发现更多内容

视频面试跟传统面试的区别及优点

anyRTC开发者

ios 音视频 WebRTC RTC 安卓

iOS 性能优化实践:头条抖音如何实现 OOM 崩溃率下降50%+

iOSer

性能优化 OOM ios开发 头条抖音 OOM崩溃

美腻了!Java资深架构师带你深度学习字节跳动的亿级流量+高并发

Java架构追梦

Java 学习 架构 面试 微服务

膜拜!阿里技术总监纯手打的《MySQL笔记》内部资料限时分享

Java架构师迁哥

华为云瑶光:打通云边端界限,为企业云上业务带来最优解

华为云开发者联盟

华为 云服务

BIGDATA+AI Meetup 2020第二季·上海站开启报名!

Apache Flink

大数据 AI

杂谈:一文了解工业4.0

soolaugust

工业互联网 工业4.0

云原生在京东丨云原生时代下的监控:如何基于云原生进行指标采集?

京东科技开发者

云原生

独家!阿里技术人限产的MySQL高级笔记及面试宝典,简直开挂

996小迁

Java MySQL 架构 面试 技术宅

原来AI也可以如此简单!教你从0到1开发开源知识问答机器人

华为云开发者联盟

开源 AI 机器人

Java程序员想要进阶,想了解Java服务器的深层高阶知识,Netty绝对是一个必须要过的门槛。

Java架构之路

Java 程序员 架构 编程语言 随笔杂谈

身为程序员你们经历过大厂面试吗?本文为大家解决大厂必问的MySQL调优问题

Java架构师迁哥

技术实操丨HBase 2.X版本的元数据修复及一种数据迁移方式

华为云开发者联盟

数据 数据迁移 原数据

【运维思考】运维对象快速扩展,监控如何精准实时的覆盖?

嘉为蓝鲸

PaaS 运维自动化 监控管理平台 监控系统 监控告警

MySQL-技术专题-MySQL的主从同步

码界西柚

最火的HTAP数据库 京东智联云新一代分布式数据库TiDB架构揭秘

京东科技开发者

数据库 #TiDB

连续一个月每天加班到凌晨三点,终于把Java程序员必知必会的计算机底层操作系统知识和网络知识整理出来了,已整理成文档!

Java架构之路

Java 程序员 架构 编程语言 操作系统

透视HTTPS建造固若金汤的堡垒

码哥字节

https 加密解密 HTTP

1分钟带你入门 React 公共逻辑抽离HOC...

Leo

大前端 React Hooks HOC Render Props

【活动预告】2020中国系统架构师大会:即构受邀分享实时音视频服务架构实践

ZEGO即构

架构师 高并发系统设计 技术分享

WebSocket硬核入门:200行代码,教你徒手撸一个WebSocket服务器

JackJiang

html5 网络编程 websocket 即时通讯

LeetCode题解:98. 验证二叉搜索树,递归中序遍历完成后再判断,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

在网上被MG坑审过却一直延迟无法取出到账怎么解决 (LGF微7998)

Geek_db0f9e

一套完整的后台管理系统(附源码),非常实用!

程序员生活志

管理系统

基于注解的参数校验器Hibernate Validator

HelloLittleRain

Java springboot 参数校验 Hibernate-Validator

让核显大展拳脚:Intel Iris Xe显卡

E科讯

1分钟带你入门 Redux 中间件

Leo

大前端 中间件 Redux Redux中间件

解锁华为云AI如何助力无人车飞驰“新姿势”,大赛冠军有话说

华为云开发者联盟

AI 无人驾驶

Java程序员还在为没有项目经验感到苦恼?快来看看GitHub上最火的SpringCloud微服务商城系统开源项目,附全套教程!

Java架构之路

Java 程序员 架构 面试 编程语言

1分钟带你入门Redux、React-Redux

Leo

大前端 React Redux React-Redux

独家!阿里技术人限产的MySQL高级笔记及面试宝典,学完简直开挂

Java架构追梦

Java MySQL 数据库 架构 面试

5分钟看完企业数据挑战的简史_大数据_Hassen Chaieb_InfoQ精选文章