写点什么

数据库厂商入局 AI 又有新思路,OceanBase 选择“卖铲子”

  • 2025-06-27
    北京
  • 本文字数:5794 字

    阅读完需:约 19 分钟

数据库厂商入局AI又有新思路,OceanBase选择“卖铲子”

在国产独立数据库厂商中,OceanBase 是一个独特的存在,他们入局虽晚,但进展迅速,并且有着非常鲜明的“性格特征”。


一个具体表现是,近年来 OceanBase 反复强调“分布式一体化”与“多云原生部署”能力,这并非堆砌技术概念,而是客户需求已经给出明确指引。


大模型火爆前,在数字化转型逐渐深入的大背景下,企业对于数据库的需求也越来越高。


很多企业要求数据库既要快又要稳,要能轻松搞定海量数据,同时处理超多请求(比如“双 11”抢购秒杀),忙时自动扩容,闲时自动缩水,万一出现 bug 也要迅速恢复,保障业务不中断。传统的集中式单机数据库显然无法同时满足这些需求,和某家云厂商绑定的模式,也可能使得整个系统受制于云厂商的稳定性。因此,分布式一体化和多云原生部署成为自然选择。


而大模型出现后,在这些需求之上,企业又衍生出大量新的数据需求。例如要高效存储和查找海量的向量数据,要能和 AI/ML 等工具完美对接,还要能快速处理实时数据;同时,对非结构化数据的管理以及利用 AI 进行智能运维的需求也越来越明显,这些需求都在推动数据库技术开启一轮新变革。


在此背景下,延续此前紧跟客户实际需求的行事风格,最近两个月,OceanBase 在 AI 布局上动作频频——先是在 4 月发布全员信,宣布全面拥抱 AI;仅一个月后,在开发者大会上推出 PowerRAG 以及一系列向量化能力。


就在 6 月 24 日,OceanBase 又迎来了 AI 新进展:云数据库业务 OB Cloud 实现 AI 能力的开发部署,并与 LlamaIndex、LangChain、Dify 等 AI 生态开放平台深度集成。这一 AI 能力已在零售、金融、物流等行业的数十家头部企业落地验证。


是什么支撑了 OB Cloud 如此快速的行动?其 AI 战略的底层逻辑是什么?在 AI 重塑数据世界的当下,OB Cloud 又将如何定位自身?


围绕这些问题,InfoQ 采访了 OceanBase 副总裁、公有云事业部总经理尹博学,他明确表示,“云数据与 AI 天然契合,正是这种契合促使 OB Cloud 率先从存储工具向智能引擎进化”。


OceanBase 副总裁、公有云事业部总经理尹博学


同时,他解释了 OB Cloud 布局 AI 的底层逻辑,也回应了关于多云原生部署的思考。OB Cloud 可以在任何一朵云上实现互联互通,将企业在不同云之间的数据无缝连接,并提供跨云容灾与分钟级故障切换,“这是其他云厂商所做不到的,只有中间的软件企业、软件服务商,才有可能真正把数据连起来”。 


此外,尹博学还从数据库厂商的视角,给企业落地 AI 应用提了几点建议。他认为,企业 AI 落地可分三步走:从高价值、短路径的小场景试点,逐步扩展到构建包含 Agent、RAG 和一体化数据库的大平台,最终实现业务与 IT 的双轮驱动。


关于 AI 和云数据库融合的未来,尹博学则坚信,“把数据的处理、加工和计算统一化是最高效的方式”,将多种 AI 能力深度集成于数据库内部,为客户提供更简洁、强大的选择是终极方向。


更多与尹博学的对话内容整理如下,InfoQ 在不改变原意的情况下稍加整理。


数据服务的可获得性至关重要


InfoQ:AI 的爆发给企业带来了全新的数据处理范式。从您的观察来看,企业在数据服务方面有哪些新需求?


尹博学:AI 特别是大模型的应用,对数据服务提出了三大新要求。首先,为消除幻觉,需要多层次检索能力,包括向量检索、标量查询、模糊化查询、全文检索等。


其次,数据库要处理的数据类型更丰富、数据量也更庞大。IDC 数据显示,到 2025 年,非结构化数据将占已知数据的 90%以上。大模型能将这些数据转化为向量,使其可被数据库处理。更复杂的是,这一过程又会产生大量新的结构化和半结构化数据。


最后,服务的可获得性至关重要。AI 应用通常部署在云端以获取便捷性和弹性,因此将数据服务置于云上,确保其高可用和易得性成为客户首选。


InfoQ:这些新需求给数据库厂商带来了哪些技术挑战?


尹博学:首先是数据治理与架构适配。企业现有技术多针对结构化数据,但 AI 时代涌现大量非结构化数据。处理这些数据需要不同技术栈(例如向量、文本、关系型等),对企业而言是巨大的管理难题。更何况企业还需在同一技术栈内兼顾实时性与一致性。


其次是成本与性能平衡。大量非结构化数据向量化后,存储成本激增。很多向量查询又要求实时响应,在海量存储与实时查询间寻找平衡点非常困难。


最后是安全与合规问题。如何在私有云和公有云统一技术栈,并确保相关技术的跨环境合规性,是企业普遍关切的难题。


InfoQ:要解决这些问题,目前已有的基座模型能力够用吗?ChatGPT 出现至今,企业对数据库需求的变化催生了哪些技术突破?


尹博学:通用场景下大模型表现尚可,但专业领域必须依靠本地化知识辅助推理。这种情况下,模型获取知识的通道越丰富、高效,推理结果才会越准确、越契合业务需求。


其实向量能力与 RAG 技术就是为此而生的。


但这也并非新技术,大模型的落地需求也在倒逼着向量与 RAG 的技术突破。以向量能力为例,大模型从向量数据库中检索到大量信息后,这些信息往往是零散且繁杂的,还需要进一步总结再呈现给用户,这就需要有新技术来解决。


目前,已经有一些新的学术成果进入生产落地环节,例如 RabitQ 已落地生产,并应用于 OB Cloud 产品中。


从数据量角度看,企业客户目前的需求主要基于文本,小规模业务文本向量规模达数百万或千万。但也有业务涉及大量非结构化数据处理,一些客户有十亿、百亿文本向量处理需求。


非结构化数据处理目前处于前期阶段,过去主要处理文本。今年大模型向多模态发展,未来图片等非结构化数据将比文本更多,且多由设备产生。这些图片产生向量,大规模应用于图片搜索和处理领域,如携程酒店业务的向量数已近十亿,还有业务处理图片向量达百亿,未来向量规模将更大。


修通模型和应用“中间件”这条路


InfoQ:从 4 月发布全员信,到向量和 PowerRAG 在云数据库上的快速部署,OceanBase 的行动速度很快。这背后有什么驱动力,为何选择从云数据库切入 AI 赛道?


尹博学:这种速度源于两方面:客户 AI 需求的敏锐观察和我们自身的 AI 应用需求。


客户最终诉求是场景落地。我们希望修通“中间件”这条路,帮助客户快速将自身知识与大模型结合,实现应用落地。无论是向量能力还是 RAG,都是为了让客户能有效利用大模型。我们的目标是让这条路更短、更高效、更经济,使落地过程更顺畅。


同时,作为软件公司,我们自身也在拥抱 AI,用于优化代码开发、大规模集群运维等。这些内部实践也反哺了我们的客户服务能力。


AI 发展离不开算力和数据,云平台在解决这两个问题上有天然优势,能让 AI 服务更易获得,这已成行业共识。既然客户更多在云上使用 AI,我们作为连接模型与应用的”修路者”,自然也应在云上发力,以更快地与客户构建桥梁。


InfoQ:为什么优先发展向量能力?OceanBase 强调的“一体化”在融合向量能力的过程中如何体现?


尹博学:构建企业知识库或与大模型结合的推理工具,向量能力是最贴近数据的环节。无论是分词、Embedding 还是标量数据向量化,都是必不可少的。


而只提供向量数据库,和把向量化算法、能力打包做整体解决方案,带来的用户体验完全不同。


我们倾向于后者,将 AI 落地所需的一系列中间件打包到云数据库中,形成一体化解决方案,在云上提供给客户,这样能让场景产生的数据最快释放其价值。


另外,我们认为长期来看,单独的向量数据库可能难以支撑企业需求,因为实际业务场景中,只用向量服务推理难以解决问题,还是需要融合标量计算,而向量数据库厂商积累标量服务经验的窗口期已经过了。目前客户多分开使用标量和向量手段,这在可维护性、成本和稳定性上非最优,只是短期方案。


长期来看,客户需要的是开箱即用、将 AI 能力集成、多模向量一体化的融合方案。


InfoQ:将非结构化数据向量化,并在此基础上打造 RAG 这件事,很多企业都在做,你们的差异化优势是什么?


尹博学:基于我们的多模一体化能力,企业无需引入额外组件,就能在 OB Cloud 上体验向量数据、空间数据、文档数据、标量数据、全文检索等混合检索能力。


同时,我们引入 BQ 量化算法,大幅降低向量场景的内存需求。根据测试结果,在同等召回率与性能的情况下,引入该算法(HNSW+BQ)能够实现内存成本较 HNSW 降低 95%。在内存降本的同时,还能为用户带来更好的向量性能。测试结果显示,在同等成本、同等召回率的情况下,OceanBase 性能超 Elasticsearch 9.0 BBQ 16%。


更重要的是,OceanBase 的向量算法 100%自研,不依赖开源库,这让我们对算法有更强的掌控力,能够基于丰富的内部场景进行创新,并深度结合数据库内核解决业界难题。


具体到 PowerRAG 这个产品上,其差异化在于“一站式”和“精细化处理”。


过往,搭建 RAG 应用过程步骤复杂、流程繁琐。如果采用常规的多组件开发模式,不仅需要关注关系数据库、向量数据库、Embedding 模型、大语言模型等工具和组件的选型,还需要解决文本解析、文本分片、流程编排等问题,而采用 RAG 平台模式进行开发,虽然在一定程度上简化了 RAG 平台层的工作,但仍面临应用开发平台选型、向量和文本等数据库选型,及后续多个工具集成的问题。


此外,在处理用户上传的文档时,我们也摒弃了业界常见的“一刀切”的解析方式,而是基于不同的内容形态,用更契合的方式做差异化解析。例如,表格数据按行列或键值对处理;图片中的文字通过 OCR 提取,不同元素处理后统一为纯文本向量化。这种解析方法能显著提升检索准确率。


InfoQ:现在你们这些能力能够在真实业务场景落地应用吗?


尹博学:是的。目前,我们已把 PowerRAG 应用在我们自己的官网 AI 助手和数据库 AI 诊断功能上。AI 助手能准确回答专业问题,甚至总结多篇文章;AI 诊断能一键分析数据库状态,给出专业建议。


除了内部场景之外,例如在零售业的智能营销场景里。销售人员需掌握大量产品知识,通过 RAG 结合企业知识库,一线人员能快速准确回答客户问题,所有回答都有据可循,提升专业性和效率。这里的难点是产品说明高度相似,问题随意且可能包含多个子问题。我们能拆分问题、快速定位文档、通过向量召回及时响应,并有一套反馈机制可以持续优化性能。


OB Cloud 的向量能力也已服务于零售、跨境电商、互联网服务、物流运输、智能设备、教育等众多行业的数十家头部企业,包括伯俊在内,还有 in 银泰商业、卡佩希、携程、中国联通软研院、三维家、慧视通等,都基于 OBCloud 率先实现了 AI 应用从 0 到 1 的关键性落地。


InfoQ:在这些场景落地过程中,OceanBase 如何保证企业的数据安全?毕竟 AI 在企业大规模应用会调用更多企业数据,使其暴露在更不确定性的环境中。


尹博学:向量能力是 OB Cloud 多模特性的一部分,也是 OceanBase 整体 all-in-one 解决方案的一部分。目前它的安全能力是依托于 OceanBase 内核,包括 OB Cloud 上的安全特性。举个例子,有客户使用开源向量数据库做安全底座,发现不同部门能访问相同数据。换用 OceanBase 后,我们通过多租户能力,将不同业务板块数据隔离开,避免了未授权访问。OceanBase 作为完全自研的一体化数据库,已通过严格安全认证,能全方位解决企业安全问题。


OceanBase 数据库的某个版本后,就会自带向量功能,而不是单独售卖向量数据库。商业化方面,目前最成熟的是数据库本身,未来也会考虑中间件的商业化。我们还在探索具体的商业化模式,包括定制化、通用化或 SaaS 化服务。


InfoQ:能否从数据库厂商的视角,给企业一个落地 AI 的思路?


尹博学:我们建议企业落地 AI 可以分三个阶段:


首先,企业可以从知识库等小切口场景入手,选择价值链高且路径短的场景,直接使用像 PowerRAG 这样的产品来搭建,可以快速尝鲜 AI 能力。


在初步尝试后,企业可以开始从下到上逐步扩展。由于业务团队可能不太懂 IT,而 AI 和 IT 团队可能不太懂业务,我们建议组织类似设计思维(design thinking)的工作坊,拉上业务团队一起找到相关的 ID 场景,完成小规模构建,并将需求反馈给团队,逐步构建出最终的 AI 应用。


最终,企业需要一个包含 Agent、RAG 和一体化数据库的大平台,提供给更多业务人员或轻 IT 人员,以快速开发 AI 创新。这一步的目标是实现业务和 IT 的双轮驱动,从 AI 使能迈向 AI 原生。


把数据的处理、加工和计算一体化是最高效的


InfoQ:接下来我们聊聊未来。在向量能力、RAG 服务之后,你们未来计划集成哪些更深层次的 AI 功能?哪些是你们坚定要做的,哪些交给生态厂商来做?


尹博学:我们的核心思路是打通从数据到 AI 应用落地的整条路径。路径上所有必要工具,如果开源组件不能很好服务客户,我们都可能自己做或与生态厂商合作。


这与云厂商定位类似。云厂商专注于基座模型和算力集群,我们则聚焦于模型和应用中间的那一段——从数据到应用的中间件。垂类应用的场景理解和落地,是各领域专业 ISV 伙伴的长项,如零售中台、品牌营销等。OceanBase 的优势在于提供高效中间件能力,帮助我们的生态合作伙伴将专业知识呈现给用户,可以理解为不同层次的分工。


未来,我们会将更多有价值的工具,如 Embedding 算法、分词能力等都纳入输出范围。我们有信心做得比开源更好。


InfoQ: OceanBase 未来会推出 GPU 优化版本吗?


尹博学: 现在我们优先支持英特尔和 ARM 架构 CPU,因为我们本身业务应用也更广泛;GPU 优化主要聚焦向量索引场景,比如批量构建索引时用 GPU 加速,应对未来高并发需求。现阶段 GPU 优先级低于 CPU,因为向量查询的并发量尚未完全释放 GPU 潜力。


其实除了支持 GPU 部署,在提升算力效率上,我们也在通过一些缓存技术为企业减负:


在推理加速层,我们会在推理引擎上层构建缓存(如 KV Cache),直接复用重复问题的结果,例如 ChatGPT 发现相同 Token 时会跳过重复计算,减少大模型调用次数;在训练优化层,我们也尝试在训练框架中建立一些缓存机制,降低显卡消耗。这些技术已在 OBCloud 中有相应的落地实践,近期将有客户案例公布。


InfoQ:展望未来 1-3 年,AI 与云数据库的融合会呈现哪些主要趋势?


尹博学:我认为有三大趋势:


首先是深度一体化。这是我们坚信不疑的,市场需求也印证了这点。数据的处理、加工、计算,从统一角度看效率最高。


其次是数据互联互通。实现多云、多 Agent、多底座间的数据流通,打破企业内部数据孤岛,将是重要方向。


最后是海量数据处理能力的挑战。随着 AI 应用普及,数据量将呈指数增长,这对数据库能力提出巨大挑战,同时也是产业机遇。


我们坚信,把数据的处理、加工和计算统一化是最高效的。分散的标量、向量等处理方式,在成本、效率、稳定性上都不是最优解。如果一个产品能将 AI 落地所需的多种能力(标量、向量、全文检索等)集成在内部,而非让客户自行组装多个工具,这将是更有生命力的方案。


这意味着客户无需为一个 AI 应用拼凑多个数据产品,避免运维复杂性、成本增加和稳定性风险。如果技术上能实现这种一体化,为客户提供更简洁、强大的选择,这就是未来方向。

2025-06-27 13:216502

评论

发布
暂无评论

汽车智能座舱中 显示屏市场战略趋势分析 上篇

SOA开发者

软件定义汽车

测试开发之前端篇-CSS层叠式样式表

禅道项目管理

CSS html

对Python爬虫编写者充满诱惑的网站,《可爱图片网》,瞧人这网站名字起的

梦想橡皮擦

9月日更

Linux用户密码管理

在即

9月日更

ECMAScript 2021(ES12)新特性简介

程序那些事

JavaScript ecmascript 程序那些事 ES12

揭秘TDSQL-A分布式执行框架:解放OLAP关联分析查询性能瓶颈

腾讯云数据库

数据库 tdsql

阿里巴巴发布“限量版”Java零基础宝典,38岁的中年失业者怎么活下去

Java 程序员 后端

mydumper备份工具介绍与使用

Simon

MySQL

Percolator模型及其在TiKV中的实现

vivo互联网技术

数据库 Percolator 分布式,

与springcloud整合的框架源码读取入口

Java 编程 架构 微服务

主机安全是什么意思?安全体检包含哪些方面?

行云管家

运维 服务器 主机 主机安全 安全体检

CSS 轻松制作 SVG 动画

devpoint

css3 SVG 9月日更

为什么不推荐Python初学者直接看项目源码

Felix

Python 编程 开发 Programing 阅读代码

37 手游基于 Flink CDC + Hudi 湖仓一体方案实践

Apache Flink

大数据 flink

腾讯云分布式数据库TDSQL再获认可

腾讯云数据库

数据库 tdsql

Shell:Lite OS在线调试工具知多少

华为云开发者联盟

Shell 操作系统 Lite OS 在线调试 命令函数

阿里巴巴Java方向面试题汇总(含答案),为什么数据库会丢失数据

Java 程序员 后端

阿里,快手,拼多多等7家大厂Java面试真题,Java开发面经分享

Java 程序员 后端

阿里,快手,拼多多等7家大厂Java面试真题,Java面试题高级

Java 程序员 后端

一部好看过武侠小说的热血互联网史!

博文视点Broadview

OSCAR纪实:华为与开源生态伙伴协力同行,共创未来

科技热闻

深入解读TDSQL-C的内核关键技术

腾讯云数据库

数据库 tdsql

开便利店可以实现财富自由吗?

石头IT视角

FunTester框架Redis性能测试之list操作

FunTester

redis 性能测试 测试框架 压力测试 FunTester

干货帖 | TDSQL-A核心架构揭秘

腾讯云数据库

数据库 tdsql

为什么说腾讯云TDSQL是金融行业的“杀手锏”级应用?

腾讯云数据库

数据库 tdsql

TDSQL-C 数据库架构

腾讯云数据库

数据库 tdsql

阿里巴巴发布“限量版”Java零基础宝典,万字Java技术类校招面试题汇总

Java 程序员 后端

乘着汽车智能化的浪潮,“汽车人”的职业方向选择(三)

SOA开发者

软件定义汽车 车载控制单元

论亚马逊QLDB与腾讯TDSQL架构与功能

腾讯云数据库

数据库 tdsql

阿里,快手,拼多多等7家大厂Java面试真题,Java笔试题及答案详解

Java 程序员 后端

数据库厂商入局AI又有新思路,OceanBase选择“卖铲子”_实时计算_刘杨楠_InfoQ精选文章