阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

数据技术大融合,HSTAP 数据库有多少想象空间?

任朝阳

  • 2022-08-15
    北京
  • 本文字数:3296 字

    阅读完需:约 11 分钟

数据技术大融合,HSTAP数据库有多少想象空间?

目前,HTAP 数据库成为数据库领域最热门的话题之一,Gartner 分析师甚至指出,HTAP 已经成为新一代数据库的入场筹码,HTAP 为什么会火起来?如何实现 HTAP 能力?HTAP 下一步是否会向着超融合 HSTAP 方向演进?整个数据技术栈是否会像十年前 iPhone 整合掉 MP3、手机通信、相机等一样,被一个数据平台整合?本文通过采访相关专家对上述问题进行探讨。


天下大势分久必合合久必分,数据技术亦是如此。


千禧年后随着信息化和数字化发展,数据技术走向繁荣,百花齐放。近年来,随着数字化转型深入,数据价值愈发凸显,数据技术出现了融合趋势。比如,软硬一体,湖仓一体,HTAP 数据库等等。


近两年,我们看到市场上除了火热的 HTAP 数据库,还出现了HSTAP数据库和 HTSAP 数据库的说法,多出来的 S 是什么?是新瓶装旧酒?还是数据技术融合下的新探索?

火热的 HTAP 乱花迷人眼


“在继分布式、NoSQL/NewSQL 之后,国内数据库技术界的当红炸子鸡,非云原生、HTAP 莫属。”去年 DTCC2021 中国数据库技术大会后,一位专家如此写道。


HTAP 是 TP 与 AP 的融合,希望用一套系统,解决用户的 TP 和 AP 需求,这一数据库的融合趋势,不限于中国,在全球都是一样的来势汹汹。比如,2022 年 5 月,Google Cloud 发布了主打 HTAP 的云端数据库 AlloyDB, 6 月,Snowflake 发布了行存储引擎 Unistore,正式进军 HTAP。此前,包括 MySQL 发布 Heatwave,增强分析能力,也是加入了 HTAP 大战。


Gartner 分析师甚至指出,HTAP 已经成为新一代数据库的入场筹码,HTAP 能力成为数据库必备选项。信通院在 7 月中旬也启动了首批“可信数据库”-HTAP 数据库产品评测……


2014 年 Gartner 对 HTAP 数据库给出了明确定义,即需要同时支持 OLTP 和 OLAP 场景,基于创新的计算存储框架,在同一份数据上保证事务的同时支持实时分析,省去费时的 ETL 过程。也就是说,支持混合负载的数据库能够避免传统架构中在线与离线数据库之间大量的数据交互,同时也能够针对最新的业务数据进行实时统计分析。


HTAP 火热的背后是需求推动,越来越多的实时分析场景出现,比如,金融业中对实时性要求较高的风控、实时账单、实时促销等业务场景,以及新一代 Web3.0、NFT、区块链等对实时数据敏感的领域。在原来的架构下只能支持 T+1 或者 T+N 分析,已经不能满足需求,而省去 ETL 的 HTAP 数据库可以实现 T+0 的实时分析。


通常来讲,实现 HTAP 可以分为两大类,第一大类是将现有的 TP 与 AP 包装,通过一些中间件的方式将其连接起来再做封装,以类似中台的方式封装实现。比如,TP 用了 MySQL,AP 用某数据仓库或者数据湖,中间用 Flink 串起来,且对用户透明,包装成一个相对比较统一的管理界面。实现起来容易,但是组件多,成本高。第二大类,融合架构,抛弃现有的 TP 与 AP 独立架构,从底层存储开始就将 TP 与 AP 的引擎融合起来,形成一套系统。为了避免在线实时读写与批处理作业之间的资源干扰,HTAP 混合负载型数据库通常使用读写分离或内存处理技术实现。一般来说,分布式数据库的多副本架构天然支持读写分离技术,而基于传统架构的数据库往往采用内存处理技术进行实现。不过,融合架构下的 HTAP 数据库也是乱花渐欲迷人眼。


矩阵起源 CTO 张颖峰认为,在数字化转型浪潮中,数据库将扮演比以往更为重要的角色,在数据技术融合的大趋势下,现在的 HTAP 还有不足,矩阵起源提出了超融合 HSTAP 数据库的定位,多出来的“S”又是什么?

融合的下一站是 HSTAP?


“为什么要加 S 呢?是指用户使用 TP 和 AP 时的数据结构和能力要求不一定相同,一定要有东西在这两者之间做桥梁。”张颖峰介绍,在挖掘数据价值过程中,数据库是企业数据资产或者数据平台的组成基础,如在一个数据中台中,用户需要基于 OLTP(通常来自业务中台)的表做 ETL 工作,Join 成宽表保存到 OLAP 用来做交互式分析。为什么要有宽表呢?这有两方面的原因:其一是分析师建模方便,其二是增加许多维度字段,提升查询效率。在这种场景下,以 Flink 为核心的数据流处理,成为了串起上下游的核心引擎,而其中的典型操作,就是 Stream Join,把多个表实时连接成一张表保存到目标数据库,进一步资产化。单纯的 HTAP,通常只能用于实时分析,无法满足这种通用场景的要求。


矩阵起源所提的 HSTAP 中的“S”指的是串联 AP 和 TP 的 Streaming 能力,即在 HTAP 数据库内部实现了数据库内置流处理能力。通过一种创新的架构实践极简理念,把数据库的复杂度留给产品的研发阶段,而把简单、易用、好用的最终体验带给用户。


“我们定义的 HSTAP 是指,在这个平台里面,无论是 TP 还是 AP 负载,用户都可以随心所欲地去创建各种表,也可以随心所欲用一个流,用类似于流的语法,把各种表连起来。”张颖峰强调。比如用户希望对订单明细表进行分析,需要 Stream Join 成一张宽表。那么,随着有订单明细表的数据更新,宽表也将自动更新,但是不用维护该更新机制。即把用户的 ETL 工作内置到数据库当中,这样就让一个数据库同时具备 AP、TP 和 S(流)的能力。


在矩阵起源团队看来,当下的数据栈,包括数据库、数据仓库、数据湖,这些本身就不应该如此割裂。之所以割裂,这里面有技术的因素,也有历史因素,同时具备 TP、AP、流三者能力的 HSTAP 会帮助客户彻底打破数据孤岛问题,成为企业将来的智能化核心数据基础设施。“HTAP、流批一体、湖仓一体,这些新的技术趋势都可以包含在 HSTAP 的范畴内。”张颖峰指出。


有人对此会有疑问,HTAP 还没有做好,去做 HSTAP 不是天方夜谭、痴人说梦吗?


矩阵起源 Global CTO 田丰指出,实现一个 HSTAP 有两方面的挑战,一是架构方面的取舍。使用一款开源和成熟的数据库来扩展,会比较稳定而且容易快速推出产品,但有非常沉重的历史包袱,无法应对未来新型应用和基础设施的需要,因此 MO(MatrixOne 缩写)决定自己从头开始研发。 二是如何实现不同负载的资源隔离以及高效的资源分配。在这一点上,MO 创新性的提出了储存、计算和事务分层解耦的架构,使得资源分配可以随着各种负载的变化高效分配,并可以做到单种负载的独立扩展。


▲MatrixOne 愿景架构图


去年成立的矩阵起源,其核心创始团队成员都是数据库领域的资深人士,公司创始人&CEO 王龙,曾在腾讯云担任副总裁,对数据库有着独特的见解和洞察。Global CTO 田丰博士师从数据库元老 David DeWitt,多篇论文入选数据库顶会 SIGMOD、VLDB。公司 CTO 张颖峰经历过互联网大厂,并在大型企业担任过技术负责人,深耕后端分布式存储等技术,既懂甲方也懂乙方。去年该公司接连获得两轮融资,获得资本的青睐。


从信息化到数字化,几十年来,数据技术栈不断丰富,从数据库、数据仓库、数据湖、湖仓一体,到流处理引擎 Flink、批处理引擎 Kafka 等,由于技术以及历史发展等多种原因,很多企业都以搭积木的形式积累了丰富的 IT 资产。如今数据技术走向了大融合,比如湖仓一体、HTAP,以及矩阵起源提出的 HSTAP。很像十年前,iPhone 智能手机的出现融合了通信、音频 MP3、视频 MP4、相机等。如今,MP3 已经消失,MP4 演化为 iPad 等继续活跃,便捷的智能手机替代了大部分专业相机和 MP3 的使用场景。


数据技术的超融合是否会像智能手机一样发生?


田丰认为,像智能手机一样,未来企业数据平台的融合是一个趋势,现在一个企业可能有 MySQL、SQLite、Oracle、Spark、Flink、Clickhouse 等多种数据库或者数据处理技术,而在未来一个公司所有数据或者大部分数据都会集中在一个整合的、简单易用、易运维、高性价比的数据平台上,最大程度保证数据的安全和可靠,同时降低应用开发和管理的难度以及复杂度。不过由于过去数十年很多大企业已经积累了十几种甚至更多的 IT 系统,整合的过程是漫长和曲折的。矩阵起源希望并相信 MatrixOne 这样的超融合数据库会是一个理想的载体。


相比于消费级的智能手机,作为数字基础设施的数据库,其替换难度和成本都太高。而且没有任何一套架构或者一套系统能够打遍天下,企业也不希望系统过重造成供应商锁定。田丰强调,MatrixOne 并不是封闭的,而是会积极融入到开放的数据技术生态中,比如企业已经部署了 Flink 计算引擎,MatrixOne 会与之适配。但企业新建一个业务系统,MatrixOne 会是好的选择。正是因为秉持开源开放的原则,MatrixOne 从一开始便选择了开源。


一个好的数据库是用出来的,数据技术融合趋势不可挡,HSTAP 这个新理念未来会在更多实际场景中验证、发展和成长。

2022-08-15 09:003024

评论 1 条评论

发布
用户头像
太理想了,总有人想一个产品、一套架构打天下,现实总是打脸
2022-08-18 08:49 · 广东
回复
没有更多了
发现更多内容

研产供销数据一体化,解码汽车集团企业的数据治理之道

袋鼠云数栈

数字化转型

云计算在商业运营中的潜力

天翼云开发者社区

云计算

人脸识别技术的优缺点及其在实际应用中的影响

来自四九城儿

iOS上架报错:无法添加以供审核

雪奈椰子

AI巨兽崛起!如何用低代码开发平台驭服神奇之力?

EquatorCoco

人工智能 低代码 AI大模型

PoseiSwap 更新第二期空投,持有 Zepoch 节点数量将决定空投回报

大瞿科技

一次解决三大成本问题,升级后的 Zilliz Cloud 如何造福 AIGC 开发者?

Zilliz

SaaS Milvus Zilliz zillizcloud

Kubernetes网络模型Overlay和Underlay

Geek_b2fe7a

知识图谱之《海贼王-ONEPICE》领域图谱项目实战(含码源):数据采集、知识存储、知识抽取、知识计算、知识应用、图谱可视化、问答系统(KBQA)等

汀丶人工智能

自然语言处理 知识图谱 信息抽取

在现场!2023世界人工智能大会

新云力量

人工智能 AI 人工智能大会

为什么多数企业的数字化转型都失败了?

优秀

数字化转型 企业数字化 企业数字化 PaaS 平台

提升UE5写实效果的项目设置

3DCAT实时渲染

虚幻引擎5 UE5

拥抱抑郁,制心一处,一切美好是深度投入的产物

B Impact

PoseiSwap 更新第二期空投,持有 Zepoch 节点数量将决定空投回报

BlockChain先知

中国大模型的落地DNA,写在这个双螺旋结构里

脑极体

AI

精彩回顾|【2023 ACDU 中国行·深圳站】数据库主题交流活动成功举办!

墨天轮

MySQL 数据库 oracle postgresql 腾讯云

2023世界人工智能大会如约而至!低代码开发:点燃数智时代,让AI风口助您飞跃

不在线第一只蜗牛

人工智能 低代码 人工智能大会 行业风口

人脸识别技术在医疗行业的应用

来自四九城儿

3DCAT实时云渲染助力VR虚拟现实迈向成熟

3DCAT实时渲染

实时渲染

性能认证+最佳案例,阿里云 ACK@Edge 产品技术、落地能力获信通院综合认可

阿里巴巴云原生

阿里云 容器 云原生 ACK

当AI侵权搅动创新之风:低代码开发平台前景岌岌可危?

快乐非自愿限量之名

人工智能 低代码 ChatGPT

国产化适配再进一步,融云完成欧拉、TDSQL、优炫等多方适配

融云 RongCloud

开源 运维 信创 融云 适配

5个祖传的Python自动化办公项目,治愈你的抑郁

程序员晚枫

Python 微信 自动化 机器人 办公

PoseiSwap 更新第二期空投,持有 Zepoch 节点数量将决定空投回报

EOSdreamer111

九科三周年专访丨创始人万正勇:拥抱AIGC新浪潮,赋能信创产业高质量发展

九科Ninetech

活动开启 | 以梦筑码 · 不负韶华 开发者故事征集令,讲出你的故事,有机会参加HDC.Together 2023

HarmonyOS开发者

HarmonyOS

2023-07-06:RabbitMQ中的AMQP是什么?

福大大架构师每日一题

Rabbit 福大大架构师每日一题

代码随想录训练营 Day09 - 字符串(下)

jjn0703

手把手教学构建证券知识图谱/知识库(含码源):网页获取信息、设计图谱、Cypher查询、Neo4j关系可视化展示

汀丶人工智能

人工智能 自然语言处理 nlp 知识图谱

WIZMAP-大规模 embedding 向量的可视化交互工具

Zilliz

机器学习 深度学习 Embedding 交互式可视化工具

PoseiSwap 更新第二期空投,持有 Zepoch 节点数量将决定空投回报

股市老人

数据技术大融合,HSTAP数据库有多少想象空间?_数据库_InfoQ精选文章