写点什么

William McKnight 关于数据平台和创建现代数据架构的见解

  • 2018-10-28
  • 本文字数:999 字

    阅读完需:约 3 分钟

在上周举行的数据架构 2018 年峰会上,William McKnight 就使用不同的数据平台创建现代数据架构做了主旨演讲

他以讨论组织的数据成熟度和业务成功之间的高度相关性开始了他的演讲。组织的数据架构越成熟,业务就越成功。成熟度较低的组织往往会把数据分散于不同的信息孤岛中。他分享了一些来自 2018 年“互联网分钟(Internet Minute)”中所发生的事情的统计数据,在互联网上每分钟发送 1 亿 8700 万封电子邮件和 1800 万条短信,进行 370 万次搜索查询等等。

人工智能(AI)是一股颠覆性的力量,而数据则是这场革命的基石。行业中出现了新的数据集:生物数据(Bio Data)。如果将生物数据和环境数据(如位置等)结合在一起,那么你将拥有进行数据分析的所有信息。

他谈到了数据培养和像数据仓库(data warehouse)和数据湖(Data Lake)这样的解决方案如何帮助完成数据工作。数据架构师也需要在 HDFS 和云存储之间做出选择。HDFS 具有更好的查询性能,而云存储的扩展性、持久性和可用性更好,并且成本更低。

通过比较关系数据库和 nosql 数据库的数据大小和工作负载复杂性,McKnight 讨论了即可使用的大数据平台的选择。

另外,他也谈到了 NewSQL 数据库,该数据库可扩展、兼容 ACID 并支持分片。这些数据库正被用于资本市场数据输入、金融交易、电信记录流和欺诈检测。

数据库的云部署提供了一些好处,包括按需和自助服务数据管理、广泛的网络访问、资源汇集、快速弹性和可测量的服务。

传统的 ETL 技术不足以用于企业范围内运行的数据平台。有各种各样的数据源,并且数据是实时流式传输的。数据架构应该考虑这些需求的流处理

企业数据虚拟化提供了对所有结构化和半结构化数据持续及时的访问,这些数据来自组织内不同的数据源,如数据仓库、市场、多维数据集、操作数据存储(operational data stores,简称 ODS)、事务源和文件系统。

他建议,数据专业人员在这次数据架构转型旅程中进行他们的挑战,应该做好进行长期战役的准备,可能会失败几次才能最终获得成功。将您的数据体系结构工作与应用程序预算和路线图项目结合起来,以便在数据架构实施方面取得进展。

McKnight 对其演讲进行了总结,建议数据专业人员在需要高性能的数据管理解决方案的地方考虑使用内存数据库,并考虑未来使用 GPU 数据库和混合数据库。

阅读英文原文: William McKnight on Data Platforms and Creating a Modern Data Architecture

感谢冬雨对本文的审校。

2018-10-28 04:081451
用户头像

发布了 199 篇内容, 共 91.5 次阅读, 收获喜欢 295 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

欢迎来到,个人数据安全“世界杯”

脑极体

事件总线 + 函数计算构建云上最佳事件驱动架构应用

阿里巴巴云原生

阿里云 云原生 函数计算 事件总线

PingCAP 与 Wisconsin-Madison 大学建立科研合作,探索 Key-Value 存储系统的智能管理与自动调整

PingCAP

TiDB

如何确定解决的问题的价值?

珑彧

方法论

web前端开发课程怎么样

小谷哥

ES Client性能测试初探

FunTester

如何把可观测需求落地为业务大盘?

云布道师

阿里云

架构训练营模块三作业

现在不学习马上变垃圾

架构训练营10期

TiCDC 源码阅读(二)TiKV CDC 模块介绍

PingCAP

#TiDB

TiCDC 在大单表场景下的性能优化:我们如何将吞吐量提升 7 倍?

PingCAP

#TiDB

《解构领域驱动设计》-软件复杂度解析

珑彧

读书笔记 方法论 领域驱动设计 DDD 复杂

什么?比 MySQL 性价比更高的 TiDB Cloud Serverless Tier 来了?

PingCAP

#TiDB

解读重要功能特性:新手入门 Apache SeaTunnel CDC

Apache SeaTunnel

CDC 数据变更捕获

时序数据库 TDengine 3.0 参数体系使用方式汇总

TDengine

数据库 tdengine 时序数据库

探索工业互联网领域中的设备通信协议

JustYan

物联网 工业互联网 物联网协议

澳鹏中国第三年,缘何成为AI训练数据服务行业领头羊?

澳鹏Appen

人工智能 数据采集 数据安全 数据标注 AI向善

基于低代码平台构筑金融行业IT运维服务体系

明道云

数益工联 x TiDB丨如何运用 HTAP 挖掘工业数据价值?

PingCAP

#TiDB

属于 PingCAP 用户和开发者的 2022 年度记忆

PingCAP

#TiDB

得物染色环境落地实践

得物技术

测试 研发效能 测试环境 流量预测 企业号 1 月 PK 榜

Nydus 镜像扫描加速

SOFAStack

SOFA

TableLayout(表格布局)

芯动大师

Android Studio tablelayout 表格布局

JVM 如何获取当前容器的资源限制?

阿里巴巴云原生

Java 阿里云 容器 云原生

极光笔记 | 当前最佳实践:Header Bidding 与瀑布流混合请求技术

极光GPTBots-极光推送

后端 营销 运营

LiveMe x TiDB丨单表数据量 39 亿条,简化架构新体验

PingCAP

#TiDB

架构实战 3 - 外包学生管理详细架构

架构实战营 「架构实战营」

TiCDC 源码阅读(一)TiCDC 架构概览

PingCAP

TiCDC

2023-01-04:有三个题库A、B、C,每个题库均有n道题目,且题目都是从1到n进行编号 每个题目都有一个难度值 题库A中第i个题目的难度为ai 题库B中第i个题目的难度为bi 题库C中第i个题目

福大大架构师每日一题

算法 rust Solidity 福大大

链上隐私交易成新刚需,Unijoin.io或成该赛道新契机

股市老人

九科信息超级自动化平台前景广阔——Gartner:超级自动化是RPA行业未来发展的必然趋势

九科Ninetech

TiDB 首批通过信通院 HTAP 数据库基础能力评测

PingCAP

#TiDB

William McKnight关于数据平台和创建现代数据架构的见解_服务革新_Srini Penchikala_InfoQ精选文章