写点什么

过去一年,我看到了数据库领域的十大发展趋势

朱洁

  • 2024-03-08
    北京
  • 本文字数:5096 字

    阅读完需:约 17 分钟

大小:2.54M时长:14:46
过去一年,我看到了数据库领域的十大发展趋势

过去一年,行业信心跌至冰点


2022 年中,红衫的一篇《适应与忍耐》的报告,对公司经营提出了预警,让各个公司保持现金流,重整团队,想办法增加盈利。这篇报告的推出的时间点应该是各个整个行业的拐点,大家不再期待 V 型复苏拐点,信心开始逐步跌落,2023 年初跌倒谷底和冰点。2023 年整个一年都是在艰难的慢慢恢复,各行各业普遍艰难,公司裁员加剧,就业率创新低。数据库行业 2021 年的资本盛宴开始,众多创业者刚想闯进来分一杯羹,22 年底 23 年初就结束了,应该说让从业者深刻体会到了什么是大起大落。站在 2024 年起点往回看,还是非常感慨和唏嘘。作为大起大落的亲历者,今天这篇我们一起来总结数据库行业在 2023 年的一些情况,我会尽量涉及到产品技术,厂商发展,市场环境等多个方面,受限于时间和水平不足,肯定有不少错漏之处,也欢迎大家一起探讨。接下来就正式进入正题:

趋势一:HTAP 成为主流数据库的一项基础能力


数据库技术起源于美国,中国在这个行业里面不管是市场容量,技术方面总体来说还是全面落后于美国的。所以产品技术这块国内和国外还是有很大的区别,有些方面国内非常火热,但是在国外缺完全不一样,反过来也是一样的。首先这个特别明显的就是 HTAP 和 Serverless 两项技术,HTAP 在国内比国外热,Serverless 则更是成为海外产品的 default 选项。


HTAP 概念能在国内火爆,TiDB 功不可没,甚至一度大家觉得这可能是一个细分赛道,不过经过几年下来,行业还是逐渐形成了一个共识,HTAP 是数据库的一项基础能力,而不是一个细分赛道,或者反过来说 HTAP 不足于支撑一个单独的数据库细分门类。2023 年一个重要的趋势就是各个主流数据库都把 HTAP 支持作为一项基础能力。典型的有:


23 年 10 月腾讯的 TDSQL-C 也列存索引,并把列存索引和并行查询整体包装成 HTAP 能力。

23 年 12 月百度发布 GaiaDB 4.0,重要升级就是推出列存索引和列存引擎,提升不同规模数据的查询速度,其中列存引擎最大可支持 PB 级数据的复杂分析,并且与事务处理业务严格复杂隔离。



海外这个概念提的比较少,Google AlloyDB 算是正式提过这个概念,AWS 重点宣传的是 Zero-ETL,本质上也是 HTAP 的能力,但总的来说海外对这个概念并不是特别感兴趣。

趋势二:Serveless 成为头部厂商的共识


Serverless 在美国经过 AWS 长达十余年不遗余力的宣传,早就深入人心,国内因为不同的市场环境,企业普遍还是喜欢预付费为主,所以这种弹性动态的优势就不明显,因此导致 Serverless 在国内发展缓慢。


数据库 Serverless 这块阿里发力最早,21 年就开始布局,23 年把 Serverless 作为主推方向,基本 TP,AP,NoSQL 各个方向都支持了 Serverless,甚至传统的 RDS 产品线,以及工具的 DTS 产品也开始支持 Serverless。


23 年 8 月份,腾讯的 TDSQL-C 也宣传支持 Serverless,并把主打的差异化点是可以完全释放存储,数据变成归档。业内的 Serverless 无法完全做到不使用不付费,一般实例暂停后仍然会收取高昂的存储费用,可释放存储将彻底解决这一问题。当实例暂停后,数据会进行归档存储。用户无需再为高额的分布式存储进行付费,可在原实例暂停后的存储费用上降低成本 80%。


年底的时候华为 GuassDB for MySQL 也全面商用,号称相比固定规格,Serverless 实例平均可降低使用成本超 30%,特定情况甚至有 80%+ 的成本降低。


所以从 2023 年开始,Serverless 可以说成为头部厂商的共识了,相信在接下来数据库 Serverless 会有一个长足的发展。

趋势三:国内在产品形态上部分开始领先海外


相比 HTAP,分布式产品在国内发展更充分,竞争对手很多,所以更值得说一说。分布式数据库国内 OceanBase,TiDB,PolarDB-X 都是比较有特色和竞争力的产品,其中阿里的 PolarDB-X 很早就开始布局和支持存储分离+分布式的技术,走一条存算分离,分布式一体化的技术路线。下图是阿里宣传的融合架构图:



2023 年 AWS re:Invent 上宣布推出 Aurora Limitless Database,本质上是存算分离的 Aurora 的基础上加了一层 proxy 做分布式。下图就是 AWS 的架构:



看到 AWS 这个新的发布,国内数据库圈子好一阵沸腾,觉得国内的数据库一些方面也可以领先美国厂商了。其实这个趋势并不是发生在 2023 年某一天,而是一个逐步积累的过程。早在 2020 年的时候,国内的阿里云 RDS 产品能力就比 AWS 要强,提供了三节点,双节点,单节点,拖管,半拖管等多种形态,除了 AWS 形态,产品性能,规格丰富等都比 AWS 要强。


所以这个趋势并不能说是 2023 年的新趋势,这个趋势一直在发生;但是还是非常值得放到 2023 年重大趋势中拿出来说,这个还是非常明显标志着:随着国内的工程技术能力的逐步增强,会有越来越多的产品领先美国厂商。

趋势四:AI4DB and DB4AI 成功翻红


AI4DB,DB4AI 喊了很多年,谈不上新概念,不过在 2023 年大模型的带动下,数据库和 AI 结合又有了新的想象力,大模型的巨大威力,让厂商纷纷研究数据库和大模型的结合。


首先是 23 年 8 月份,腾讯云向量数据库(Tencent Cloud Vector DB)正式上线公测。作为一款全托管的自研企业级分布式数据库服务,腾讯云向量数据库专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法,单索引支持 10 亿级向量规模,可支持百万级 QPS 及毫秒级查询延迟,不过半年后,直到笔者写这篇文章的时候,腾讯的向量数据库还是没有商用。


百度也赶在年底发布了单独的自研向量数据库,百度向量数据库 VectorDB 是一款纯自研高性能、高性价比、生态丰富且即开即用的向量数据库服务。支持多种索引类型和相似度算法,百亿级向量规模,毫秒级查询延迟。百度向量数据库不仅能配合大模型打造专业知识库,还可以应用于图片搜索,音乐推荐,文本分类等领域。



23 年 12 月份,百度还发布 DBSC(数据库智能驾驶舱),这个是利用 AI 的技术,为用户提供安全审计、智能诊断与数据库管理的数据库自治服务。DBSC 利用 AI 大模型能力和专家经验实现数据库的智能化洞察、评估和优化。有效保证数据库服务的安全、稳定及高效。这块的探索应该说阿里最早,阿里的 DAS 产品在 20 年就看准了数据库安全自治工具一体化成主流趋势。百度的 DBSC 比较有特色的是提供问答诊断、工单处理、知识查找等能力的智能手,这个能力其实是非常考验产品知识的积累的。


NoSQL 这块阿里的 Lindorm 直接简单粗暴的将大模型内置到系统里面,支持以图搜图功能,应该说是一种探索,不过总体觉得还是比较难做出特色和实用价值的。


美国的 AWS 利用 AI 增强 ETL 能力,Google 利用大模型实现代码改写能力,也是在这个方向发力,国内的也有创业公司跟进,不过目前离成熟还需要一些时间。

趋势五:云厂商开始发挥软硬件垂直整合优势


应该说云厂商本质上先革 IDC 的名,再革各种基础软件的命,要相比客户自建有明显的优势,推出自研,走垂直整合是必选道路。前一个非常成功的 2C 厂商是苹果,2B AWS 也是复制这条道路。国内总体差距比较大,云厂商里面华为,阿里跟进的比较快,都推出了 ARM 系列芯片,国内目前最强的应该是华为的鲲鹏系列。


2023 年开始阿里的全线主力产品都进行了适配,阿里发布的 RDS 经济版本就是 适配 ARM 系列,基于倚天/ARM 芯片服务器上持续优化,提高性能,定价则是只有 X86 实力的 60%~70% 的价格,通过性价比吸引用户尝鲜和试用。应该说短期内 ARM 的能力还不够,所以是经济版本,长期看,ARM 应该要能能力迭代更快,长期发挥比 X86 更好的能力。如果走向这一天,云厂商的相比自建客户的优势将进一步拉大。


华为、阿里的动作标志着云厂商 2023 年也开始发挥垂直整合的优势,不过总体来说国内的发展水平相对美国还是差距比较大。

趋势六:RDS 还是常青大盘产品,NoSQL 创新相对较少


2023 年我们观察到,NoSQL 是随着互联网场景诞生的,随着十多年的发展,开始碰到一定的创新瓶颈了。反过来关系型数据库都纷纷一定程度上吸收了 NoSQL 在性能,分布式,高可用的优势,关系型数据库反倒有不少进展。


阿里云栖大会,集中展示了阿里 RDS 的进展,包括解决通用云盘 IOPS 和容量解耦的问题,通过冷温热数据分层,读写性能提高 102%,存储成本降低 90%。内核层面也有创新,通过 binlog 并行解析,缩短 crash/recovery 时间,改进 RTO 事件,支持表级别、行级别压缩;冷温热数据分层,降低客户使用成本等等。应该说从产品形态,计费,内核全方面进行了改进。


整个行业在 NoSQL 这块相对而言就乏善可陈了。


另外 中立厂商 NineData 进行了第三方公开 RDS sysbench 测试,华为云,百度云分列第一二位,反而不是大家理解的阿里、腾讯。说明在这个领域国内云厂商竞争还是非常激烈的,阿里腾讯保持优势也还是非常困难的。也说明这个领域发展还是比较快的。应该说 RDS 仍能是常青大盘型产品。NoSQL 主要是向量数据库有一些发展,期待传统的缓存,文档数据库以及一些细分时序,图等领域有更多的创新点。

趋势七:国产数据库纷纷演进 RAC 架构,企图突破集中式架构


RAC 架构是 Oracle 经典架构,在 Oracle 10/11 就已经推出。


互联网厂商因为数据量特别大,Oracle license 又特别贵,所以纷纷用 MySQL,叠加各种分布式技术来实现 Oracle 的替代,这就是轰轰烈烈的去 IOE。所以在过去的一段时间,有认为 RAC 就是落后的代表,但是随着时间的发展,大家还是纷纷发现,一般的企业不一定需要那么大的数据量,在这种场景下 RAC 优势就比较明显了。


所以 2023 年在私有化场景上有一个非常明显的趋势,就是国产数据库厂商纷纷发布了类似 RAC 技术的产品。典型的有达梦 DSC 已经在部分用户那边商用了,优璇再次发布了 SuperRAC,人大金仓也很快会推出共享存储多读多写的产品,高斯的 RAC 版本已经在路上了,虚谷伟业的 RAC 也在开发中。


但同时有意思的是,国内纷纷支持 RAC, 2023 年 oracle 原厂开始宣布支持分布式能力。所以说技术关键还是看场景,适合的场景选择适合的技术,未来大概率通用数据库会走的道路是分布式存算分离一体化的道路,给客户丰富的选择。


趋势八:国内融资环境异常艰难


前面讲的都是技术方面的,除了技术外,市场环境,厂商发展在 2023 年也是精彩纷呈,值得一看,接下来说几个关键点。


首先就是 2023 年国内的融资环境异常艰难,相对于 2021 年的高歌猛进,2023 年异常冰冷,市场上绝大部份公司都很难融资,只有少数的公司获得融资,而且金额也不是很高。


所以我们会看到国内很多大佬纷纷下场,预言 2027 年国内数据库厂商十家,二十家左右。应该说国内数据库厂商现在是有点多了,近 300 个数据库,200 家厂商,而数据库又是一个非常通用的产品,所以是非常难容得下这么多的厂商的,至于是十家,还是二十家不关键;关键是怎么在这个残酷的市场竞争力活下来是非常考验的。


总的来说,我相信最有创新能力,客户服务能力强的厂商会活下来。

趋势九:信创提速


信创从 2019 年大力推行以来,金融行业走的最快,金融行业基本完成了大行,股份制的划分,推进到了中小行。国家在推动信创目录上也是动作频频。12 月刚公布的新一轮信创目录:

http://www.itsec.gov.cn/aqkkcp/ywjs/


另外除了金融行业,明显看到其他关键行业如电信、电力都加快了信创的速度。现在信创最大的问题还是竞争太激烈,导致没有一个实际赚到钱的厂商。大概估计数据库研发人均收入还不足 50 万,离健康的 500 万差 10 倍以上。


信创就是个双刃剑,给了数据库厂商希望,估计未来大量倒闭的也是出在这个领域。

趋势十:头部独立厂商商业化能力越来越强

最后一个趋势,留给在数据库行业挣扎的企业。


应该说宏观环境很不好,但是头部厂商还是持之以恒的突破。像 OB 加大了公有云投入,获得了一些标杆客户,像包括新零售行业的海底捞、二维火和客如云,制造业的理想汽车,互联网行业的高德、携程、快手、作业帮、翼鸥教育、GCash,以及跨境行业的洋葱集团、纵腾集团、递四方等。


TiDB 还在持续拓展海外客户,包括尝试 Serverless 等,和 AWS 合作在客户上也有不错的进展。


国内深圳计算所推出的崖山数据库,是今年的异军突起,有一些标杆客户,主打 Oracle 兼容,包括推出个人版已向所有用户和开发者全面开放下载,大家可以去尝试使用一下。

2024 年,数据库领域将是柳暗花明又一村


2023 艰难的一年过去,迎来了有希望的 2024 年。展望 2024,我们判断未来会有这么几个大的趋势:


  • AI 代码改写会越来越成熟,Oracle 转 MySQL,PG 预计会变得很简单。

  • 向量数据库会走向更务实的实用阶段,预计在智能问答,助手等领域会有更多实际应用。

  • 存算分离和分库分表分布式技术会走向融合。

  • 1~2 年之内,Serverless 在国内会变得很普及,各个云厂商都预计会推出 serveless 数据库产品。

  • 数据仓库领域,湖仓一体化,会成为数据仓库的主要形态,形成共识。

  • 2024 年应该会是数据库的转折点,有一些数据库厂商会被淘汰。


2024-03-08 15:2210712

评论

发布
暂无评论
发现更多内容

上海科技大学智能生活组齐聚合合信息,“沉浸式”体验人工智能产品

合合技术团队

人工智能 人才发展 合合信息 校企合作 上海科技大学

西安航天基地人才创新创业大赛正式启动

华为云PaaS服务小智

西安 大赛 比赛 西安航天 企业人才

全网最强分布式事务详解

程序员小毕

Java 分布式 分布式事务 后端 架构师

《让花掉的钱自己流回来》

石云升

读书笔记 财富管理

数字孪生(Digital Twin)快速入门:简介以及应用示例

龙智—DevSecOps解决方案

数字孪生 digital twin

【升职加薪秘籍】我在服务监控方面的实践(1)-监控蓝图

蓝胖子的编程梦

elasticsearch 性能优化 Grafana 服务监控 #Prometheus

3步带你搞定华为云编译构建CodeArts Build “新手村任务”

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

CRM系统化整合从N-1做减法实践 | 京东物流技术团队

京东科技开发者

CRM CRM系统 企业号 7 月 PK 榜 系统化整合

服装行业MES系统解决方案|免费使用MES系统

万界星空科技

开源 MES系统 服装行业

出海是产业互联网发展的必然趋势之一

用友BIP

产业互联网 中企出海

Stepn跑鞋/Jogger慢跑者NFT系统开发案例

薇電13242772558

NFT

第二届“鼎新杯”数字化转型应用大赛-全国入围赛结果公示及最佳人气案例投票启动

信通院IOMM数字化转型团队

数字化转型 IOMM 鼎新杯

详解TCP网络协议栈的工作原理

华为云开发者联盟

后端 开发 华为云 华为云开发者联盟 企业号 7 月 PK 榜

三大升级!龙蜥正式推出首款全面拥抱智算的国产操作系统 Anolis OS 23

OpenAnolis小助手

开源 操作系统 龙蜥社区 版本发布 Anolis23

Nautilus Chain 主网上线,Zepoch 持有者将获第三轮 POSE 空投

西柚子

搜狗输入法双击输入框崩溃问题 | 京东云技术团队

京东科技开发者

搜索引擎 搜索 输入法 企业号 7 月 PK 榜

手把手带你初探Vue 3.0 | 京东物流技术团队

京东科技开发者

前端 Vue 3 VUE 3.0 源码 企业号 7 月 PK 榜

加速 Selenium 测试执行最佳实践

FunTester

【云计算小知识】云环境是什么意思?有什么优点?

行云管家

云计算 云资源 云管 云环境

智能运维进入6.0时代,CloudwiseGPT运维大语言模型强势来袭!

云智慧AIOps社区

智能运维 大模型训练 大模型 大模型时代

从iOS App启动速度看如何为基础性能保驾护航 | 京东物流技术团队

京东科技开发者

ios 开发 企业号 7 月 PK 榜 APP冷启动 启动速度

数智融合促进资产共享,实现企业资产效益最大化

用友BIP

资产云

安全文件传输:如何降低数据丢失的风险

镭速

文件传输 安全文件传输

宁波企业等保测评找哪家?怎么做?

行云管家

等保 等级保护 等保测评 宁波

8月31日,上海!第十八届中国IDC产业(长三角)年度大典即将召开!

中国IDC圈

数据中心

户外LED显示屏怎样在5G时代下发展?

Dylan

5G 广告 数字化 城市 户外LED显示屏

DevOps国际峰会 | 采访龙智总经理,分享DevOps见解与行业趋势

龙智—DevSecOps解决方案

DevOps 金融行业 devops国际峰会

SAM&Stable-Diffusion集成进化!分割、生成一切!AI绘画新玩法

飞桨PaddlePaddle

人工智能 百度 paddle AI 飞桨

业财税档融合:大企业管理升级的必然选择

用友BIP

税务云 业财税档融合

过去一年,我看到了数据库领域的十大发展趋势_数据湖仓_InfoQ精选文章