如何 0 成本启动全员 AI 技能提升?戳> 了解详情
写点什么

业内首推“共享存储”,OceanBase 何以办到?

  • 2025-05-21
    北京
  • 本文字数:5093 字

    阅读完需:约 17 分钟

大小:2.55M时长:14:52
业内首推“共享存储”,OceanBase何以办到?

5 月 17 日,OceanBase 在第三届开发者大会上宣布一体化架构再升级,全新推出“共享存储”产品。

这是继今年 3 月推出单机版数据库后,OceanBase 放出的又一个“大招”产品。这款产品在业内首个实现了对象存储与事务型数据库(TP)深度集成,也使得 OB Cloud 成为业界首个在 TP 场景下支持对象存储的多云原生数据库。


它以 OceanBase 根自研的一体化架构实现对对象存储(如 Amazon S3、阿里云 OSS、等)的深度支持,可将生产数据持久化落地于对象存储,创新构建存算一体与分离架构,不仅大幅提升云上数据存储的弹性扩展能力,更使 TP 负载的存储成本最高降低 50%。



具体来讲,这款产品将数据持久化从云盘迁移至对象存储,通过“云盘 + 对象存储”的混合方案,实现计算与存储的解耦。计算层可按需弹性扩展,存储层具备更高的容量弹性与成本优势,对象存储只需保留单副本,即可实现数据的高可靠性;同时利用其跨可用区共享能力,保障同城多 AZ 环境下的数据高可用性,为海量数据场景提供更优的成本与性能平衡。


为什么 OceanBase 会在这样的时间点上推出这款产品?


那就要从当前大模型时代,数据处理和管理所面临的痛点说起。


先来看几组数据。


据 IDC 预测,2028 年全球 GenAI 市场规模将达 2842 亿美元,占 AI 市场投资总规模的 35%,五年复合增长率达 63.8%;聚焦中国,GenAI 市场规模将于 2028 年超过 3000 亿美元,占 AI 市场总规模的比例将从 2024 年的 18.9% 增至 2028 年的 30.6%, 五年复合增长率为 51.5.%。


如此大规模的市场,产生的数据也一定是海量的。


IDC Global DataSphere(全球数据圈)最新报告显示,2028 年全球新生成数据量规模将达到 393.9ZB(含消费者数据和企业数据)。其中,企业数据规模和增速尤为凸显,IDC 预计,2028 年全球数据圈企业份额占比将扩大至 80.5%,即 317.1ZB,2023-2928 年年复合增长率高达 30.2%。



海量数据虽蕴含巨大价值,但也给企业的数据存储、管理和分析工作带来严峻挑战。传统存储架构面对如此量级的数据,读写性能下降,存储成本大幅增加,数据管理难度呈几何倍数增长


此外,随着 GenAI 技术的成熟,企业亟需能够高效存储和分析文本、图像、音频、视频等异构数据的新一代数据库,要求其具备智能化的存储优化和实时计算能力。


更严峻的是,随着企业全球化发展和数据价值挖掘需求的增长,跨云数据整合面临严峻挑战。不同云平台间的数据格式和接口差异导致迁移工作复杂且成本高昂,不仅需要专业人力进行格式转换和接口适配,还需承担持续增加的网络传输费用。这些现实需求倒逼数据库技术持续革新,这也是 OceanBase 打造“共享存储”产品的根源所在。


回望 OceanBase 15 年的自主研发历程,始终是市场需求驱动技术演进的最佳实践者。


一直以来,OceanBase 始终践行一体化的技术战略。到目前为止,OceanBase 已经完成了两次重大技术迭代,目前正迈向第三次架构升级:


第一次重大迭代是 2016 年发布的 1.0 版本,该版本实现了所有节点的可读可写能力,突破了传统分布式数据库在读写权限方面的限制,为 OceanBase 奠定了高可用、高并发的技术基础。


第二次重大迭代是 2020 年发布的 4.0 版本,当时 OceanBase 创新性地提出了“单机分布式一体化架构”,在一套系统中同时实现了分布式系统的扩展性和单机数据库的功能与性能。这一突破性设计使得 OceanBase 被开发者社区亲切地称为“成年人的数据库”——因为成年人不做选择,既要分布式卓越的扩展性能,又要单机极致的事务处理能力。


而如今,OceanBase 正在进行第三次技术架构升级,重点构建多云原生能力。这一升级包含三个关键方向:跨云平台的一致性体验、跨云高可用与容灾能力、面向多云的存储计算分离架构。


这一演进将进一步增强 OceanBase 在复杂云环境中的适应能力。


据 OceanBase CTO、AI 战略一号位杨传辉透露,OceanBase 还在持续耕耘 SQL+AI 的能力,包括自研向量引擎、混合检索,以更好地应对 AI 时代数据处理的需求。

OceanBase 推出业内首个“共享存储”产品

既然市场需求驱动了 OceanBase“共享存储”产品的诞生,那这款产品有哪些特别之处?


据 OceanBase 产品部总经理杨志丰介绍,该产品的核心亮点包括:


  • 面向海量数据的极致性价比,基于共享存储的架构设计,使 OceanBase 在保持强一致性和事务性能的同时,实现海量数据场景下的极致性价比,存储成本最高降低 50%。

  • 面向 Serverless 的云原生弹性能力,存储和计算资源独立弹性伸缩,按量付费。支持 Serverless 式的资源调度,实现存储不动、计算可弹的能力。

  • 多云原生,全面支持 Amazon S3、阿里云 OSS 等主流云平台及兼容 S3 协议的对象存储,为企业在多云、混合云环境下构建统一的数据基础设施提供更多可能。


值得一提的是,这款产品和很多业内已有的共享存储版本有一些差异。为了弥补对象存储在延迟上的短板,OceanBase 构建了一套多层缓存体系,通过冷热分层 + 命中率最大化的设计,可把对象存储的影响控制在最低限度。


它的整个架构分为三层:


底层是对象存储基座层:兼容 S3 接口,支持多云对象存储(如 AWS S3)及私有化部署方案(如 MinIO),用于存储低频访问的大容量数据。


第二层是本地持久化缓存层:独立部署三副本日志服务,提升访问效率,解决对象存储随机读慢的问题,并且这种单日志服务可支撑多集群运行,为共享存储架构补上关键一环。


最上层是内存缓存层:承载最热点数据,确保关键事务毫秒级响应;支持灵活部署(如高可用场景 2 副本,普通场景 1 副本)。



OceanBase 共享存储产品演示图


这样设计最终取得的效果如何?


OceanBase 技术团队针对典型分析处理(AP)场景进行了专项性能评测,包括 ClickBench、TPCH、TPC-DS 等业界标准基准测试。


测试结果显示,在基于对象存储的共享存储架构下,OceanBase 的性能损耗控制在 0.3%~1.7% 的极低范围内。相较于该架构在 AP 场景下带来的显著收益(包括存储成本的大幅降低和弹性扩展能力的提升),这一微小的性能折损对于绝大多数业务场景而言都是完全可以接受的。


基于以上特点,这款共享存储产品能解决什么问题?


简而言之,是为了解决 shared-nothing 架构在弹性和成本方面的瓶颈。


数据库技术的演进始终与存储介质革新紧密相连。从 HDD 到 SSD,再到 NVM,每次介质升级都推动了数据库架构的创新,释放出更大性能潜力。共享存储架构允许多节点访问同一存储资源,虽节省空间并确保一致性,但面临 I/O 争用等瓶颈。


而对象存储是一种新的数据存储方法,它将数据存储为“对象”,每个对象包含数据本身、与之相关的元数据以及唯一的标识符,通常用于存储大规模非结构化数据,例如图像、音频、视频、文档和日志文件等,因其高可靠、低成本、可无限扩展等特性,在云计算快速发展的今天,被广泛应用于企业存储备份、归档和数据湖等场景。


然而,在事务型数据库(TP)的生产数据场景中,对象存储一直未被普及。


这背后的原因,并非是对象存储技术不成熟,而是在于主流数据库对低延迟、高性能有极致追求,普遍采用紧耦合的存算一体架构,因此依赖本地磁盘或云盘,无法支持对象存储的应用。这一情况下,虽然数据库的交易性能得到保障,但也带来了云上扩缩容不灵活、存储冗余度高且成本过高等问题。


而 OceanBase 这款产品,正是在性能无损的同时,开创性实现了对对象存储与 TP 业务的深度集成。

把对象存储做到 OLTP 生产级的 5 重技术突围


事实上,对象存储并不是什么新鲜事,业界已有众多支持多云架构的面向对象存储的数据库解决方案,但遗憾的是,它们更多停留在 HTAP、备份、冷数据场景中, 一直未被应用于 TP 数据库的生产场景中。

以知名的 Snowflake 为例,它虽然支持 OLAP 场景,却因难以实现低延迟和实时写入无法满足 OLTP 需求。


OceanBase 之所以能实现基于对象存储并将其落地在 OLTP 生产环境中,背后依赖的是深度的技术创新和极高的工程复杂度。


首先,是缓存架构上的创新。OceanBase 通过构建多级缓存架构解决了性能问题,包括内存缓存、本地持久化缓存、分布式缓存和对象存储四层,专为 TP 场景设计。


在传统 shared-nothing 架构中,热点数据主要依赖内存缓存。在 share storage 共享存储产品下,OceanBase 增加了本地持久化缓存 + 分布式缓存,有效承接对象存储的访问延迟问题。无论是缓存对象存储读出的数据、预读预热机制,还是缓存数据在节点间的数据同步机制,均确保了 TP、AP、KV 多种负载下的性能与容灾恢复能力(内存缓存:承载最核心、最热点的数据,本地缓存 + 分布式缓存:为共享存储架构补上关键一环,对象存储:无限容量的冷数据归宿)。


其次,OceanBase 使用自研的基于对象存储的 LSM-Tree 引擎,天然适配“只追加、不修改”的对象存储特性,避免覆盖写,降低写放大和冲突概率,提升 IOPS 利用效率。


同时,在对象存储天然为大块顺序 I/O 优化、小 I/O 性能差且超过 1 万 IOPS 容易被限流的前提下,OceanBase 通过聚合小 I/O、异步写入、读写路径优化、并发控制等深度工程手段,极大缓解了 TP 场景下频繁事务访问对底层存储带来的压力。


第三,OceanBase 通过独有的持久化缓存弹性伸缩能力,进一步解决了 TP 场景下热点数据随业务波动而动态变化的问题。相比业界普遍的固定缓存策略,OceanBase 的本地缓存空间可随负载自动扩缩,保障高并发读写的同时降低资源成本。


此外,在日志架构方面,OceanBase 也实现了重大重构。在原有 Share Nothing 三副本架构中,日志服务分布在每个副本内部,而在共享存储产品中,OceanBase 将日志服务单独抽象出来,形成独立的服务模块。这一设计不仅带来了更稳定的日志 I/O,还实现了日志的跨集群共享,进一步降低了存储成本,提高了资源利用率,实现更好的性能、更好的弹性和更低的成本。


在 Serverless 架构方面,OceanBase 支持通过 Spot 节点显著降低计算成本。以 AWS Lambda 的 Spot 实践为例,最高可节省约 70% 的计算资源开销。在架构设计上,OceanBase 将 Compaction、DDL、备份恢复等重 I/O 操作拆分为异步后台任务,计算节点保持本地无状态,从而具备更强的自动弹性与跨集群调度能力,真正实现从架构层面对云原生的深入适配。


最后,OceanBase 对对象存储的访问链路进行了全链路的适配和优化——从 I/O 调度机制、缓存命中率、预取策略,到跨可用区的副本同步机制,全面压低延迟波动。即使面对毫秒级响应压力的 OLTP 业务,依然可以保持稳定的事务执行能力。


正是这些技术难点的逐一突破、这些工程能力的系统构建,使 OceanBase 成为目前业内唯一能够在 OLTP 场景下稳定运行对象存储的云数据库。


在 TP 负载下,OceanBase 共享存储产品在保障强一致性的同时,存储成本降至原有的 1/2;在 AP、AI 及多模相关负载下,支持大规模分析和离线任务的同时,存储成本最高降低至原来的 1/10,打造面向海量数据的一体化数据底座。

面对行业变革,总要有人先吃螃蟹


杨志丰表示,OceanBase 共享存储产品在云上可被应用于多种典型业务场景,尤其适合海量数据、冷热数据特征明显、对成本敏感的业务场景,包括典型 TP、历史库及备份库,时序类业务、HBase 兼容类业务、流水型业务系统、OLAP 业务等。具体来说:


在典型 TP、历史库及备份库等场景中,可通过将热数据缓存 SSD、全量数据存对象存储,在降低存储成本的同时确保历史数据查询性能。


在时序类业务中,典型的特征是数据随着时间热度递减,包含但不限于 IoT、智能制造、智能出行等场景,例如智能电动车、电动自行车、智能楼宇系统等会定期上传大量设备监控数据。这些数据通常写入频繁,但查询主要集中在短期内,具备明显的热度衰减特征。共享存储结合自动冷热识别与本地热数据缓存机制,既保障了写入性能,也控制了长期存储成本。


在 HBase 兼容类场景中,在提供冷热分离能力的基础上强化事务处理与一致性保障,为 KV 业务提供平滑迁移方案。


在流水型业务系统中,通过智能缓存机制满足高频写入、短期查询和长期留存需求。


技术总要回归到商业本质。杨志丰表示:“在 AGI 时代,这款产品对大模型应用开发的核心价值在于:通过创新的共享存储架构,实现了海量数据的高效管理与成本优化,为 AI 时代的数据处理需求提供了可扩展、高性价比的解决方案。”


同时,杨志丰判断,将有越来越多的厂商开始研发基于对象存储的事务处理(TP)数据库系统,特别是分布式 TP 数据库领域。他的判断主要基于两点:


从行业示范效应来看,OceanBase 实践并验证了这一技术路线的可行性,能为业界提供了可参考的案例。目前,这款共享存储产品在 OceanBase 内部测试的各项性能指标都表现优异,更加增强了 OceanBase 对这一技术路线落地的信心。


从行业认知层面看,以往很多从业者并非没有想到这个方向,只是对实际落地效果存疑。随着 OceanBase 的这次成功实践,这种疑虑或许能够消除。


毕竟,总有人要先吃螃蟹。

2025-05-21 06:194630
用户头像
李冬梅 加V:busulishang4668

发布了 1185 篇内容, 共 805.8 次阅读, 收获喜欢 1301 次。

关注

评论

发布
暂无评论

微服务架构中的“参天大树”:SpringBoot+SpringCloud+Docker

小Q

Java 学习 容器 面试 微服务

解读登录双因子认证(MFA)特性背后的TOTP原理

华为云开发者联盟

算法 totp 密钥

为什么容器内存占用居高不下,频频 OOM

996小迁

Java 架构 容器 面试 k8s

go-zero 如何扛住流量冲击(一)

万俊峰Kevin

microservice go-zero goctl Go 语言

【JVM】肝了一周,吐血整理出这份超硬核的JVM笔记(升级版)!!

冰河

性能优化 内存模型 JVM 堆栈 JVM笔记

直播卖货已成趋势

anyRTC开发者

音视频 WebRTC RTC

区块链数字货币商城系统开发模式

薇電13242772558

区块链 数字货币

什么是服务器租用?

德胜网络-阳

影视剪辑类自媒体运营心得:如何抓住观众的痛点

石头IT视角

厉害了!阿里内部都用的Spring+MyBatis源码手册,实战理论两不误

小Q

Java spring 学习 面试 mybatis

响应式关系数据库处理R2DBC

程序那些事

MySQL R2DBC 程序那些事 响应式系统 响应式数据库

支撑2715​亿元海量订单 揭秘京东大促背后的数据库基石

京东科技开发者

数据库 数据仓库 云服务 云数据库

Java中NullPointerException的完美解决方案

Silently9527

java8 Optional

基于Vue实现一个有点意思的拼拼乐小游戏

徐小夕

Java GitHub 开源 H5游戏 H5

读完某C++神作,我只记住了100句话

MySQL从删库到跑路

c++

2020双十一,阿里云GRTN拉开直播和RTC技术下半场的序幕

阿里云CloudImagine

架构 云直播 直播 流媒体 直播架构

Java中的线程与C++中的区别

jiangling500

Java c++ 线程

这份算法攻略,我拿到了5个大厂的offer

yes

面试 算法 笔试

SpringBoot-技术专题-Hystrix学习介绍

码界西柚

2020年底备战—从技术到面试合集

iOSer

ios 编程 面试

SQL数据库集合运算

正向成长

SQL表联结 SQL集合运算

《程序员面试金典》.pdf

田维常

面试

这才是图文并茂:我写了1万多字,就是为了让你了解AQS是怎么运行的

鄙人薛某

Java 并发编程 AQS 并发 ReentrantLock

Vokenization:一种比GPT-3更有常识的视觉语言模型

脑极体

6个JDK自带JVM调优工具,一次性打包给你说清楚

田维常

jvm调优

甲方日常 52

句子

工作 随笔杂谈 日常

容器和虚拟机到底有啥区别?

网管

容器 虚拟机

接口测试并不只是测试参数和返回值

测试人生路

接口测试

有点意思的gif动图生成平台开发实战(二)

徐小夕

Java Vue 大前端 GIF React

程序员如何判断跳槽岗位是否有坑!

Java架构师迁哥

.net core增强工作流组件,基于稳定平台,多项目整合开发

雯雯写代码

业内首推“共享存储”,OceanBase何以办到?_数据库_李冬梅_InfoQ精选文章