OceaBase开发者大会落地上海!4月20日共同探索数据库前沿趋势!报名戳 了解详情
写点什么

在国外掀起一股热浪的现代数据堆栈是什么?

  • 2022-07-11
  • 本文字数:3728 字

    阅读完需:约 12 分钟

在国外掀起一股热浪的现代数据堆栈是什么?

Snowflake 上市时股价曾一度飙涨到每股 400 多美金,Databricks 在彭博社最近的报道中估值高达 380 亿美元,这两家企业让大家看到云原生与大数据领域的诸多可能,也让有关现代数据堆栈的讨论甚嚣尘上。随着云计算的兴起,人们工作方式的改变,大数据格局已经演变为云原生架构。本期,我们采访到了下秒数据联合创始人李元佳,共同探讨国内的现代数据堆栈体系建设。


现代数据堆栈的概念解析

 

在讨论现代数据堆栈这个概念之前,我们可能需要花一点时间回顾数据技术栈的演进历程。dbt 的 CEO-Trisan Handy 曾对这个话题发表过一些看法,他将现代技术栈的发展分为三个阶段:

 

  • 寒武纪大爆发第一阶段,从 2012-2016

  • 部署阶段,从 2016-2020

  • 寒武纪大爆发第二阶段,从 2020-2025

 

在第一阶段,最具代表性的产品是 Redshift,尽管这可能不是最早发布的 MPP 产品,但 Redshift 的到来真正点燃了整个领域,这是一个云原生的 MPP 数据库,是第一个可以按照 160$一个月进行采买而不是一年花超过 10 万美金。随着价格的下降,使用 MPP 数据库这个闸门突然打开了。当时 Redshift 是 AWS 有史以来增长最快的服务。

 

在 Redshift 发布之前,BI 面临的最难的问题是速度:即使在一个中等规模的数据集上做相对简单分析都可能会非常对耗费时间,并且构建了一整套生态系统来缓解这个问题。

 

  • 数据在被装入到数据仓库之前首先要进行转换,因为数据仓库太慢和受限而不能处理这些繁重的数据处理工作。

 

  • BI 工具进行了大量的本地数据处理以解决数据仓库的瓶颈从而能够给最终用户一个可以接受的响应时间。

 

  • 数据处理工作由中央的团队来严格控制从而避免数据仓库处理太多来自于最终用户的请求而不堪重负。

 

一夜之间,所有这些问题都解决了。Redshift 速度很快,而且很便宜。这意味着围绕解决这些性能问题而构建的 BI 和 ETL 产品都立刻成为了遗留软件,构建适合新的世界的产品的新的供应商也应运而生。企业家看到了机会并且蜂拥而至,这些产品在很大程度上定义了我们今天生活的世界。

 

进入第二阶段,事情的进展似乎变得缓慢,这在 Trisan Handy 看来是正常的,因为行业开始进入部署阶段,按照技术发展曲线来解释就是进入了爬坡阶段。在这个阶段,我们发现问题、解决问题并提出优化意见,等待着下一个爆发期的到来。

 

进入第三阶段,我们已经看到了下一轮爆发的征兆。最近这几年,我们看到了很多因数据而生的创业公司逐步进入到 IPO 阶段,并成为业务营收明星,在此之前,数据的价值一直没有明确的判断,直到 Snowflake 上市,第一次将数据领域的商业价值完全暴露给公众。当然,Clickhouse、Tebula(Apache Iceberg 背后的商业公司)、Firebolt 以及国内诸多新兴创业公司为这一领域带来了很好的讨论度。

 

在这一阶段,现代数据堆栈技术也变为基于云原生数据平台的技术集合,用于降低运行传统数据平台的复杂性。我们看到现代数据基础架构中的几个关键趋势正在形成:

 

第一,数据源和存储解决方案正在迁移到云端,云原生成为刚需。代表企业 Snowflake。

 

第二,随着数据上云的过程,湖仓一体化的架构会成为主流,这样可以很好的解决数据孤岛的问题。

 

第三,在湖仓一体的架构下,传统的 ETL 正在被更灵活的 ELT 所替代。

 

第四,到达数据的消费端,在新的大数据架构下,非技术用户希望越来越容易使用数据操作、报告和仪表板,需要更灵活自助的 BI 工具,Looker 正是提供了这样的工具。

 

显而易见,仅仅在云中拥有一个数据平台并不能使其成为“现代数据栈”。事实上,大多数云架构都无法满足分类要求,诸如云数据湖或其他定制解决方案之类的往往无法真正抓住现代数据堆栈的本质,而且往往感觉像它们的内部同类产品一样笨重。

 

那么,现代数据堆栈具备哪些特征呢?如果现代数据堆栈生态中的技术特征说起,大抵具备一些共性:

 

1.作为托管服务提供:不需要或只需最少的用户设置和配置;

2.以云数仓为中心:消除混乱的集成,工具可以很好地协同工作;

3.通过以 SQL 为中心的生态系统使数据民主化;

4.弹性工作负载:按使用量付费;

5.专注于运营工作流程:点击式工具非常适合低技术用户;

 

尽管现代数据堆栈的构成有很多不同的版本,有时也被称作数据科学需求层次结构,但底层的起源都是类似的,从数据管道开始。

 

传统数据集成方式已死

 

按照传统的数据集成方式,从数据进入到最后得出有效结果,我们需要耗费多少成本呢?

 

一个大数据项目落地加上技术及相关人员的总成本大致在大几百万甚至上千万起跳,而且这对参与人员的要求很高,通常需要 ETL 公司、建模公司、数据分析师等对多方角色参与。差不多十个人左右的团队才能把整个项目跑起来。

 

即便耗费了这么多人力和物力,最终的结果往往也很差,这与数据质量不好和建模结果灵活性较弱均有关系,目前的大数据平台仅在互联网、金融、电信等业务数字化相对较好、体量较大、能够承担大成本投入的企业中能获得不错的结果。

 

李元佳在采访中提及,核心瓶颈在于数据源端要花太多时间和成本处理,这种问题随着湖仓一体的落地进程加快而越来越明显。国内很多传统企业的数据来源于内部的各种系统,对这些系统的数据集成建模需要耗费巨大精力,这可能涉及一两千个系统、每个系统可能有几百张表,每个表可能又有很多字段,企业需要理解每个字段代表的意思,并对其做清洗、合并,如果可以将上下链路打通,降低数据集成的复杂度和成本,企业才有可能从大数据中获益。

 

此外,传统的数据集成系统位于数据中心的本地。随着组织数据需求的增长,更强大的硬件不足以解决问题。无论是在本地还是在云端,都需要更多的服务器来横向扩展数据处理基础架构。这些设置管理起来很复杂,需要并行机器才能运行。 

 

今天的计算范式已经从本地转移到云端,而这种转变使数据管道能够迁移到云端。数据仓库技术也有了飞跃,允许原始数据按原样直接写入底层云存储,无需任何事先转换。目前最先进的数据管道工具是完全托管的服务,允许企业有效自动化其数据集成,解决本地不可扩展的架构、成本高昂等问题。

 

我们是时候重新构想数据管道了。

 

重新构想数据管道

 

完全托管的数据管道无需为数据集成设计、构建或管理硬件。所有基础架构都托管在云中,并根据需要配置和停用资源。如果企业仍然在本地托管他们的数据,一些工具可以在防火墙后面提取数据并将其迁移到云端。如果需要更多的处理能力,可以在云端自动启动更多的服务器,当存储需求增长时,可以按需附加性价比更高的海量存储池。

 

从成本角度,完全托管的数据管道消除了企业构建或维护数据管道的工作,且无需为管道选择连接器并仅需要根据消耗量计费,这也是下秒数据目前在做的一部分事情。

 

采访中,李元佳提到,企业在将高质量的数据灌入数据湖以及后续利用上还没有特别好的解决办法,下秒数据可以通过预建模的方式做到业务的快速接入,甚至不需要技术人员的深度参与,数据分析师或者业务人员就可以在平台上完成配置,通过 Excel 或者是一些 BI 工具就可以用了,大大降低数据管道的使用和部署门槛。

 

对开发者而言,这种 DataOps 的方式大大提高了效率,在不影响数据分析的速度和质量的情况下,使其数据程序具有高度的可扩展性,将原来很多需要手工操作的事情自动化了,同时实现了数据访问的民主化。根据组织的数据治理政策,所有的利益相关者都能够获得安全、高质量的数据,而不仅仅是少数人能够访问数据。

 

下秒数据的 Nexadata 相当于一个通用的数据集成平台,直接对接国内的大型系统软件,在这个层面解决数据源的问题,解决可靠性、实时性的问题,通过预置主流 CRM、电商、ERP、客服、营销、广告等模型,实现数据源开箱即用,只需数分钟即可完成数据集成。

 

以新零售行业为例,该领域的业务数据分散在各个应用系统之中,各系统间的业务数据未整合,缺乏完整度,异构系统交互打通技术复杂,实施成本太高;渠道复杂,需求应变慢,线下业态复杂,线上渠道增加,渠道数据分散,缺乏统一数据口径,业务反应速度难跟上变化;业务发展和变化快,固化的数据组合、建模方式没法灵活支撑新营销的开展,手工做表效率低下,数据质量不能保障容易造成信息差,大大降低数据时效性;供应链管理存在短板,大量的库存沉淀在各级渠道的库房里,形成周转压力,销售收入、库存周转等受需求预测准确性影响,业务高速增长,传统预测难以适应复杂多变的市场环境;难以精细化运营,数据分析结果滞后,难以结合业务及时沉淀数据分析模型。无法对各渠道进行实时监控、数据分析、预警。




下秒数据 Nexadata 基于对新零售行业的理解和实践经验沉淀,为新零售企业提供数据集成解决方案,借助智能数据管道技术,全链条打通线上线下 CRM、ERP、电商、零售、供应链、财务等企业信息系统的数据,赋能全域业务,向端到端智能化、自动化的业务流程发展,为企业获取持续竞争优势,帮助企业进行客群分析、精准营销、实时销售分析、库存分析等场景。提高数据效率,驱动业务增长。

 

从底层存储,到数据库和应用层面的云原生化,再到上层业务云化,这将会是未来驱动整个行业数年发展的强大动力。在国外,我们已经看到了围绕着 Snowflake、Databricks 的现代数据堆栈体系逐步建立起来了,但在国内还存在很多空白,我们可以共同期待国内的现代数据堆栈体系的生态建立。

 

延展链接:

 

https://continual.ai/post/the-modern-data-stack-ecosystem-fall-2021-edition

 

https://www.nexadata.cn

 

2022-07-11 08:414082
用户头像
赵钰莹 InfoQ 主编

发布了 874 篇内容, 共 604.1 次阅读, 收获喜欢 2671 次。

关注

评论 3 条评论

发布
用户头像
是机翻的么?有些翻译云里雾里的
2022-07-11 12:14
回复
哦 根据英文原文翻译的,云数据库更好理解点。
2022-07-11 12:19
回复
英文文章是2021年的。。。
2022-07-11 12:21
回复
没有更多了
发现更多内容

委派模式——从SLF4J说起

vivo互联网技术

Java slf4j 委派模式

秒杀场景下的业务梳理——Redis分布式锁的优化

小小怪下士

Java redis 分布式

OpenYurt v1.2 新版本深度解读(一): 聚焦边云网络优化

阿里巴巴云原生

阿里云 开源 云原生 openyurt

预测本年度 10 大薪酬最高的 IT 技术工种!

风铃架构日知录

程序员 互联网 后端 IT

架构实战营模块四作业

西山薄凉

「架构实战营」

镜像拉取节省 90% 以上,快手基于 Dragonfly 的超大规模分发实践

OpenAnolis小助手

开源 架构 快手 龙蜥技术 容器云平台

Verilog HDL行为级建模

timerring

FPGA

NFTScan 与 MAY 达成战略伙伴关系,双方在元宇宙 NFT 数据方面进行深度合作!

NFT Research

NFT 元宇宙

如果在冬夜,你是一位新能源旅人

脑极体

新能源 领克 混动

使用启科QuPot+Runtime+QuSaaS进行量子应用开发及部署-调用AWS Braket计算后端

启科量子开发者官方号

量子计算 Amazon Braket

Java高手速成 | JSP MVC模式项目案例

TiAmo

mvc java; jsp

除了Navicat破解版、DBeaver,免费还好用的数据库管理工具/SQL工具还有推荐吗?

雨果

sql navicat 数据库管理工具 Dbeaver SQL开发工具

CleanMyMac X4.12.4macO设备管理器

茶色酒

CleanMyMac CleanMyMac X

架构训练营模块五作业

张Dave

5 个 JavaScript 代码优化技巧

devpoint

JavaScript 前端开发 JS代码优化 扩展运算符

CRC工业精密电器清洁剂,硬核技术护航清洁产业发展

科技热闻

视频发布失败原因不好找?火山引擎数智平台这款产品能帮忙

字节跳动数据平台

大数据 增长 用户分析

《“鼎新杯”数字化转型应用案例汇编》正式发布(含107个案例)

信通院IOMM数字化转型团队

数字化转型 ICT深度观察

「Go框架」路由中间件:为什么能够在目标函数前后运行?

Go学堂

golang 开源 程序员 个人成长 框架学习

C++实现惰性求值

SkyFire

c++ 函数式编程 模板元编程

基于Spring Cache实现Caffeine、jimDB多级缓存实战

京东科技开发者

spring 缓存 接口 系统 企业号 1 月 PK 榜

企业用好WMS(仓库管理系统),需要注意的几个要点

SAP虾客

WMS系统 ERP系统 RFID

Go语言DDD实战初级篇

百度Geek说

Go 数据库 微服务 企业号 1 月 PK 榜

如何实现千万级优惠文章的优惠信息同步

京东科技开发者

redis 企业号 1 月 PK 榜 信息同步 伸缩任务 任务检测

电商秒杀系统架构设计

π

架构实战营

编程技术面试的7个英文网站,你知道几个?

风铃架构日知录

Java 技术 面试 后端 技能提升

真相了!TCP连接原来是这么被墙干掉的!

程序员小毕

程序员 后端 网络协议 架构师 tcpip

RCC目前最近技术与今后发展

华秋PCB

PCB PCB设计 HDI 生产工艺 RCC

OpenStack的“神秘组件” 裸金属(Ironic)管理使用

统信软件

OpenStack 服务管理 裸金属

名单揭晓!OpenMLDB 获评 2022 年度中国开源社区健康案例

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

iMazing2023免费版iOS设备管理软件

茶色酒

iOS设备管理软件

在国外掀起一股热浪的现代数据堆栈是什么?_服务革新_赵钰莹_InfoQ精选文章