阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

在国外掀起一股热浪的现代数据堆栈是什么?

  • 2022-07-11
  • 本文字数:3728 字

    阅读完需:约 12 分钟

在国外掀起一股热浪的现代数据堆栈是什么?

Snowflake 上市时股价曾一度飙涨到每股 400 多美金,Databricks 在彭博社最近的报道中估值高达 380 亿美元,这两家企业让大家看到云原生与大数据领域的诸多可能,也让有关现代数据堆栈的讨论甚嚣尘上。随着云计算的兴起,人们工作方式的改变,大数据格局已经演变为云原生架构。本期,我们采访到了下秒数据联合创始人李元佳,共同探讨国内的现代数据堆栈体系建设。


现代数据堆栈的概念解析

 

在讨论现代数据堆栈这个概念之前,我们可能需要花一点时间回顾数据技术栈的演进历程。dbt 的 CEO-Trisan Handy 曾对这个话题发表过一些看法,他将现代技术栈的发展分为三个阶段:

 

  • 寒武纪大爆发第一阶段,从 2012-2016

  • 部署阶段,从 2016-2020

  • 寒武纪大爆发第二阶段,从 2020-2025

 

在第一阶段,最具代表性的产品是 Redshift,尽管这可能不是最早发布的 MPP 产品,但 Redshift 的到来真正点燃了整个领域,这是一个云原生的 MPP 数据库,是第一个可以按照 160$一个月进行采买而不是一年花超过 10 万美金。随着价格的下降,使用 MPP 数据库这个闸门突然打开了。当时 Redshift 是 AWS 有史以来增长最快的服务。

 

在 Redshift 发布之前,BI 面临的最难的问题是速度:即使在一个中等规模的数据集上做相对简单分析都可能会非常对耗费时间,并且构建了一整套生态系统来缓解这个问题。

 

  • 数据在被装入到数据仓库之前首先要进行转换,因为数据仓库太慢和受限而不能处理这些繁重的数据处理工作。

 

  • BI 工具进行了大量的本地数据处理以解决数据仓库的瓶颈从而能够给最终用户一个可以接受的响应时间。

 

  • 数据处理工作由中央的团队来严格控制从而避免数据仓库处理太多来自于最终用户的请求而不堪重负。

 

一夜之间,所有这些问题都解决了。Redshift 速度很快,而且很便宜。这意味着围绕解决这些性能问题而构建的 BI 和 ETL 产品都立刻成为了遗留软件,构建适合新的世界的产品的新的供应商也应运而生。企业家看到了机会并且蜂拥而至,这些产品在很大程度上定义了我们今天生活的世界。

 

进入第二阶段,事情的进展似乎变得缓慢,这在 Trisan Handy 看来是正常的,因为行业开始进入部署阶段,按照技术发展曲线来解释就是进入了爬坡阶段。在这个阶段,我们发现问题、解决问题并提出优化意见,等待着下一个爆发期的到来。

 

进入第三阶段,我们已经看到了下一轮爆发的征兆。最近这几年,我们看到了很多因数据而生的创业公司逐步进入到 IPO 阶段,并成为业务营收明星,在此之前,数据的价值一直没有明确的判断,直到 Snowflake 上市,第一次将数据领域的商业价值完全暴露给公众。当然,Clickhouse、Tebula(Apache Iceberg 背后的商业公司)、Firebolt 以及国内诸多新兴创业公司为这一领域带来了很好的讨论度。

 

在这一阶段,现代数据堆栈技术也变为基于云原生数据平台的技术集合,用于降低运行传统数据平台的复杂性。我们看到现代数据基础架构中的几个关键趋势正在形成:

 

第一,数据源和存储解决方案正在迁移到云端,云原生成为刚需。代表企业 Snowflake。

 

第二,随着数据上云的过程,湖仓一体化的架构会成为主流,这样可以很好的解决数据孤岛的问题。

 

第三,在湖仓一体的架构下,传统的 ETL 正在被更灵活的 ELT 所替代。

 

第四,到达数据的消费端,在新的大数据架构下,非技术用户希望越来越容易使用数据操作、报告和仪表板,需要更灵活自助的 BI 工具,Looker 正是提供了这样的工具。

 

显而易见,仅仅在云中拥有一个数据平台并不能使其成为“现代数据栈”。事实上,大多数云架构都无法满足分类要求,诸如云数据湖或其他定制解决方案之类的往往无法真正抓住现代数据堆栈的本质,而且往往感觉像它们的内部同类产品一样笨重。

 

那么,现代数据堆栈具备哪些特征呢?如果现代数据堆栈生态中的技术特征说起,大抵具备一些共性:

 

1.作为托管服务提供:不需要或只需最少的用户设置和配置;

2.以云数仓为中心:消除混乱的集成,工具可以很好地协同工作;

3.通过以 SQL 为中心的生态系统使数据民主化;

4.弹性工作负载:按使用量付费;

5.专注于运营工作流程:点击式工具非常适合低技术用户;

 

尽管现代数据堆栈的构成有很多不同的版本,有时也被称作数据科学需求层次结构,但底层的起源都是类似的,从数据管道开始。

 

传统数据集成方式已死

 

按照传统的数据集成方式,从数据进入到最后得出有效结果,我们需要耗费多少成本呢?

 

一个大数据项目落地加上技术及相关人员的总成本大致在大几百万甚至上千万起跳,而且这对参与人员的要求很高,通常需要 ETL 公司、建模公司、数据分析师等对多方角色参与。差不多十个人左右的团队才能把整个项目跑起来。

 

即便耗费了这么多人力和物力,最终的结果往往也很差,这与数据质量不好和建模结果灵活性较弱均有关系,目前的大数据平台仅在互联网、金融、电信等业务数字化相对较好、体量较大、能够承担大成本投入的企业中能获得不错的结果。

 

李元佳在采访中提及,核心瓶颈在于数据源端要花太多时间和成本处理,这种问题随着湖仓一体的落地进程加快而越来越明显。国内很多传统企业的数据来源于内部的各种系统,对这些系统的数据集成建模需要耗费巨大精力,这可能涉及一两千个系统、每个系统可能有几百张表,每个表可能又有很多字段,企业需要理解每个字段代表的意思,并对其做清洗、合并,如果可以将上下链路打通,降低数据集成的复杂度和成本,企业才有可能从大数据中获益。

 

此外,传统的数据集成系统位于数据中心的本地。随着组织数据需求的增长,更强大的硬件不足以解决问题。无论是在本地还是在云端,都需要更多的服务器来横向扩展数据处理基础架构。这些设置管理起来很复杂,需要并行机器才能运行。 

 

今天的计算范式已经从本地转移到云端,而这种转变使数据管道能够迁移到云端。数据仓库技术也有了飞跃,允许原始数据按原样直接写入底层云存储,无需任何事先转换。目前最先进的数据管道工具是完全托管的服务,允许企业有效自动化其数据集成,解决本地不可扩展的架构、成本高昂等问题。

 

我们是时候重新构想数据管道了。

 

重新构想数据管道

 

完全托管的数据管道无需为数据集成设计、构建或管理硬件。所有基础架构都托管在云中,并根据需要配置和停用资源。如果企业仍然在本地托管他们的数据,一些工具可以在防火墙后面提取数据并将其迁移到云端。如果需要更多的处理能力,可以在云端自动启动更多的服务器,当存储需求增长时,可以按需附加性价比更高的海量存储池。

 

从成本角度,完全托管的数据管道消除了企业构建或维护数据管道的工作,且无需为管道选择连接器并仅需要根据消耗量计费,这也是下秒数据目前在做的一部分事情。

 

采访中,李元佳提到,企业在将高质量的数据灌入数据湖以及后续利用上还没有特别好的解决办法,下秒数据可以通过预建模的方式做到业务的快速接入,甚至不需要技术人员的深度参与,数据分析师或者业务人员就可以在平台上完成配置,通过 Excel 或者是一些 BI 工具就可以用了,大大降低数据管道的使用和部署门槛。

 

对开发者而言,这种 DataOps 的方式大大提高了效率,在不影响数据分析的速度和质量的情况下,使其数据程序具有高度的可扩展性,将原来很多需要手工操作的事情自动化了,同时实现了数据访问的民主化。根据组织的数据治理政策,所有的利益相关者都能够获得安全、高质量的数据,而不仅仅是少数人能够访问数据。

 

下秒数据的 Nexadata 相当于一个通用的数据集成平台,直接对接国内的大型系统软件,在这个层面解决数据源的问题,解决可靠性、实时性的问题,通过预置主流 CRM、电商、ERP、客服、营销、广告等模型,实现数据源开箱即用,只需数分钟即可完成数据集成。

 

以新零售行业为例,该领域的业务数据分散在各个应用系统之中,各系统间的业务数据未整合,缺乏完整度,异构系统交互打通技术复杂,实施成本太高;渠道复杂,需求应变慢,线下业态复杂,线上渠道增加,渠道数据分散,缺乏统一数据口径,业务反应速度难跟上变化;业务发展和变化快,固化的数据组合、建模方式没法灵活支撑新营销的开展,手工做表效率低下,数据质量不能保障容易造成信息差,大大降低数据时效性;供应链管理存在短板,大量的库存沉淀在各级渠道的库房里,形成周转压力,销售收入、库存周转等受需求预测准确性影响,业务高速增长,传统预测难以适应复杂多变的市场环境;难以精细化运营,数据分析结果滞后,难以结合业务及时沉淀数据分析模型。无法对各渠道进行实时监控、数据分析、预警。




下秒数据 Nexadata 基于对新零售行业的理解和实践经验沉淀,为新零售企业提供数据集成解决方案,借助智能数据管道技术,全链条打通线上线下 CRM、ERP、电商、零售、供应链、财务等企业信息系统的数据,赋能全域业务,向端到端智能化、自动化的业务流程发展,为企业获取持续竞争优势,帮助企业进行客群分析、精准营销、实时销售分析、库存分析等场景。提高数据效率,驱动业务增长。

 

从底层存储,到数据库和应用层面的云原生化,再到上层业务云化,这将会是未来驱动整个行业数年发展的强大动力。在国外,我们已经看到了围绕着 Snowflake、Databricks 的现代数据堆栈体系逐步建立起来了,但在国内还存在很多空白,我们可以共同期待国内的现代数据堆栈体系的生态建立。

 

延展链接:

 

https://continual.ai/post/the-modern-data-stack-ecosystem-fall-2021-edition

 

https://www.nexadata.cn

 

2022-07-11 08:414086
用户头像
赵钰莹 InfoQ 主编

发布了 874 篇内容, 共 604.8 次阅读, 收获喜欢 2671 次。

关注

评论 3 条评论

发布
用户头像
是机翻的么?有些翻译云里雾里的
2022-07-11 12:14
回复
哦 根据英文原文翻译的,云数据库更好理解点。
2022-07-11 12:19
回复
英文文章是2021年的。。。
2022-07-11 12:21
回复
没有更多了
发现更多内容

面向对象的三个基本特征(要素)

彭阿三

三要素 三个基本特征 封装、继承、多态

JAVA 中的 CAS

犀利豆

Java 并发 CAS

自由是不是随心所欲?

Neco.W

个人成长 自由 控制

常用运筹学软件整理

张利东

小师妹学JavaIO之:MappedByteBuffer多大的文件我都装得下

程序那些事

Java io nio 小师妹 buffer

下周要开始“卖桃者说”代班计划了

霍太稳@极客邦科技

日常

原创 | TDD工具集:JUnit、AssertJ和Mockito (二十一)编写测试-测试模板

编程道与术

Java 编程 TDD 单元测试 JUNI

Zookeeper Watcher 流程分析(结合源码)

CoderLi

Java zookeeper 源码分析 后端 Watcher

原创下载 | TDD工具集原创开源代码免费下载!

编程道与术

Java 开源 TDD 下载 代码

iPad配置OpenVPN客户端

wong

ipad OpenVPN

月薪 3W 的 Apple 微信编辑是这么发文章的 |如何发类似 Apple 微信公众号的文章效果

陈东泽 EuryChen

CSS 微信 大前端 apple 微信公众号

Java | 原来 serialVersionUID 的用处在这里

YoungZY

Java

副业月赚 10 万的程序员是如何做销售的?

非著名程序员

程序员 独立开发者 程序人生 提升认知

Java 序列化

CoderLi

Java 程序员 后端 序列化

中电标协提出并归口:《政务APP评价指标》团体标准开启制订工作

博睿数据

App 标准化 中电标协 政务信息化 博睿宏远

知乎Matisse图片库在Android10上拍照,预览问题

三爻

android

架构师训练营作业(第二周)

王海

极客大学架构师训练营

Zookeeper-Access Control List(ACL)

CoderLi

Java zookeeper 源码分析 后端

如何让程序员变得没朋友

四猿外

程序员 个人感悟 技术人生 经验分享

游戏夜读 | 如何制作游戏?

game1night

钩陈/ 好中文作业:巴别塔

ZoomQuiet大妈

写作 大妈 是也乎 IMHO 蟒营®

机器学习算法评估指标—2D语义分割

做技术BP的文案Gou

学习 2D 评估标准 语义分割

2020年5月云主机性能评测报告

博睿数据

云计算 服务器 公有云 机房 云主机

2w字长文!手撸一套 Java 基础面试题

cxuan

Java 后端 Java25周年

kubernetes简单入门(多图少字版)

绿星雪碧

Kubernetes 入门

华硕灵珑II笔记本电脑——自由work不设限

最新动态

情绪管理 - ABC理论

石云升

情绪控制 ABC理论 费斯汀格法则

架构师训练营学习总结——框架设计【第二周】

王海

极客大学架构师训练营

ZooKeeper 数据模型:节点的特性与应用

CoderLi

zookeeper 源码分析 数据模型 节点

IP 基础知识全家桶,45 张图一套带走

小林coding

计算机网络 计算机基础 IP

重学 Java 设计模式:实战外观模式「基于SpringBoot开发门面模式中间件,统一控制接口白名单场景」

小傅哥

设计模式 小傅哥 重构 代码质量 代码坏味道

在国外掀起一股热浪的现代数据堆栈是什么?_服务革新_赵钰莹_InfoQ精选文章