写点什么

William McKnight 关于数据平台和创建现代数据架构的见解

  • 2018-10-28
  • 本文字数:999 字

    阅读完需:约 3 分钟

在上周举行的数据架构 2018 年峰会上,William McKnight 就使用不同的数据平台创建现代数据架构做了主旨演讲

他以讨论组织的数据成熟度和业务成功之间的高度相关性开始了他的演讲。组织的数据架构越成熟,业务就越成功。成熟度较低的组织往往会把数据分散于不同的信息孤岛中。他分享了一些来自 2018 年“互联网分钟(Internet Minute)”中所发生的事情的统计数据,在互联网上每分钟发送 1 亿 8700 万封电子邮件和 1800 万条短信,进行 370 万次搜索查询等等。

人工智能(AI)是一股颠覆性的力量,而数据则是这场革命的基石。行业中出现了新的数据集:生物数据(Bio Data)。如果将生物数据和环境数据(如位置等)结合在一起,那么你将拥有进行数据分析的所有信息。

他谈到了数据培养和像数据仓库(data warehouse)和数据湖(Data Lake)这样的解决方案如何帮助完成数据工作。数据架构师也需要在 HDFS 和云存储之间做出选择。HDFS 具有更好的查询性能,而云存储的扩展性、持久性和可用性更好,并且成本更低。

通过比较关系数据库和 nosql 数据库的数据大小和工作负载复杂性,McKnight 讨论了即可使用的大数据平台的选择。

另外,他也谈到了 NewSQL 数据库,该数据库可扩展、兼容 ACID 并支持分片。这些数据库正被用于资本市场数据输入、金融交易、电信记录流和欺诈检测。

数据库的云部署提供了一些好处,包括按需和自助服务数据管理、广泛的网络访问、资源汇集、快速弹性和可测量的服务。

传统的 ETL 技术不足以用于企业范围内运行的数据平台。有各种各样的数据源,并且数据是实时流式传输的。数据架构应该考虑这些需求的流处理

企业数据虚拟化提供了对所有结构化和半结构化数据持续及时的访问,这些数据来自组织内不同的数据源,如数据仓库、市场、多维数据集、操作数据存储(operational data stores,简称 ODS)、事务源和文件系统。

他建议,数据专业人员在这次数据架构转型旅程中进行他们的挑战,应该做好进行长期战役的准备,可能会失败几次才能最终获得成功。将您的数据体系结构工作与应用程序预算和路线图项目结合起来,以便在数据架构实施方面取得进展。

McKnight 对其演讲进行了总结,建议数据专业人员在需要高性能的数据管理解决方案的地方考虑使用内存数据库,并考虑未来使用 GPU 数据库和混合数据库。

阅读英文原文: William McKnight on Data Platforms and Creating a Modern Data Architecture

感谢冬雨对本文的审校。

2018-10-28 04:081547
用户头像

发布了 199 篇内容, 共 93.3 次阅读, 收获喜欢 295 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

钉钉MCP能力上新:AI如何提效你的工作流程

钉钉开发者

MCP MCP Server

Java锁这样用,从单机到分布式一步到位

电子尖叫食人鱼

Java

关于 KWDB 数据存储的几件事儿

KaiwuDB

数据库

给 DolphinScheduler 加一个 SQL Copilot 聊天助手,这个主意怎么样?

白鲸开源

GitHub 开源 AI Apache DolphinScheduler Copilot

开源赋能能源转型:MyEMS 落地 ISO 50007 的全链路指南

开源能源管理系统

开源 iso 50007 能源管理系统

“2025京东方投资者日”在沪举办 资本战略转型开启价值创造新阶段

爱极客侠

MyEMS开源能源管理系统广泛应用

开源能源管理系统

开源 能源管理系统

OpenAI Agents 概述

wasa

实操体验 - KWDB分布式多模数据库深度探索:高效部署安装指南与TSBS性能压测技巧全攻略

KaiwuDB

数据库

n8n的基础安装分享

溪抱鱼

Docker n8n

人工智能|大模型入门(六):GPT→盘古,国内外大模型矩阵速览

测试人

智能化研发指标体系:从看得见到做得到

思码逸研发效能

研发管理 研发效能 研发效能度量

从论文提示词注入看智能体安全

冯骐

网络安全 智能体 大模型 SQL注入 提示词

东荟城名店仓联乘韩国人气玩偶 BELLYGOM 打造「Dive into Summer」主题活动

极客天地

原点安全签约金网络数科,共建一体化数据安全防护体系

原点安全

数据安全 数据安全厂商 一体化数据安全平台 供应链数据安全 数据安全产品

阿里云 EMR Serverless Spark: 面向 Data+AI 的高性能 Lakehouse 产品

阿里云大数据AI技术

人工智能 大数据 spark Serverless 数据处理

在沈阳搞AI,嘎嘎好!

百度Geek说

Obsidian 浏览器插件关联 - 极简版

虚实的星空

Linux Obsidian 黑曜石笔记

MySQL 数据同步至 S3file,并接入 Hive 访问:SeaTunnel 实践指南

白鲸开源

MySQL hive Doris 数据同步 Apache SeaTunnel

亲测可用!麒麟环境下安装 SeaTunnel 完整指南

白鲸开源

Linux 开源 安装 麒麟操作系统 Apache SeaTunnel

Python 语言连接并操作 KWDB 数据库

KaiwuDB

数据库

Web前端入门:JavaScript 由程序触发绑定事件的几种方式

量贩潮汐·WholesaleTide

JavaScript 前端

同济医院R语言训练营第三期开讲!上交大张维拓老师主讲

ModelWhale

R 语言 同济医院 上海交通大学

MyEMS开源能源管理系统简介

开源能源管理系统

开源 能源管理系统

订单初版—生单链路实现的重构文档

不在线第一只蜗牛

WPF

轻帆云AI Inside实践:GenAI 如何推动 ITSM 驶入产业深水区?

云智慧AIOps社区

ITSM ITSM软件 工单管理

面试官:谈谈你AI项目的具体实现?

王磊

IT服务台经理的角色是什么?-ManageEngine卓豪

ServiceDesk_Plus

IT服务台

如何利用 DeepSeek 简历优化高阶提示词 + jobleap.cn快速提升简历约面率

Y11

求职 找工作 招聘 简历 失业

电脑找不到C盘文件是什么情况?电脑c盘不小心删除的文件怎么恢复

阿拉灯神丁

EasyRecovery 文件恢复‘ 数据恢复软件 备份 & 恢复

10+热门 AI Agent 框架深度解析:谁更适合你的项目?

测试人

William McKnight关于数据平台和创建现代数据架构的见解_服务革新_Srini Penchikala_InfoQ精选文章