写点什么

AI 正在批量 “创建” 数据库:一场由 Agent 引发的千亿级数据架构革命

ProtonBase

  • 2025-06-30
    北京
  • 本文字数:3074 字

    阅读完需:约 10 分钟

大小:1.50M时长:08:45
AI 正在批量 “创建” 数据库:一场由 Agent 引发的千亿级数据架构革命

一场由 AI Agent 掀起的数据库革命,正在瓦解沿用了三十年的数据架构体系。


从 2024 年 10 月到 2025 年 5 月,短短七个月内,AI Agent 创建的数据库数量从 30% 爆涨至 80%,远超人类工程师的工作产出。与此同时,Databricks 以 10 亿美元收购 Neon 的消息震动业界——这家人工智能巨头正在用真金白银抢占下一代数据基础设施入口。


“传统架构正在集体失灵。” 


前 Facebook core infra、阿里搜索数据和机器学习平台,以及达摩院机器智能工程的技术领军人、ProtonBase 创始人兼 CEO 王绍翾指出。


01 崩塌的旧秩序,AI Agent 重写数据规则


假如采用传统 “拼凑式架构”,一个 toC 智能 AI Agent 请求,有时需要穿透 MySQL 用户库、Elasticsearch 日志系统、向量数据库和 ClickHouse 分析系统。当四个系统完成数据拼接时,手机端的用户早已关闭应用界面。


更致命的是成本黑洞。某头部电商的技术总监算过一笔账:为支撑推荐系统的 AI Agent,每年需要支付超过 500 万元,其中包括 Aurora 数据库费用、维护 Elasticsearch 集群的费用、用于向量检索服务的费用,还有工程师团队昼夜不停地系统维护、开发、和调优。根据 IDC 2025 企业云支出报告,电商行业数据架构年成本中位数为 460 万元。


采用拼凑式架构,就像用十台蒸汽机车拼凑高铁。而数据触目惊心背后,真正的颠覆者已经入场。


2025 年或将成为数据基础设施行业的分水岭,巨头们正以资本重注押定下一代技术标准。当 Databricks 豪掷 10 亿美金收购云原生数据库 Neon 时,全球技术圈突然意识到:这场争夺的本质是抢占 AI Agent 的底层入口。几乎同一时间,Snowflake 收购 CrunchyDB,其战略意图直指 PostgreSQL 生态的掌控权。更值得玩味的是,曾以实时数仓著称的 ClickHouse 悄然开始淡化 “数据仓库” 标签,而开始强调 Data Warehouse + Database,全面转向多模数据库。旧时代的技术边界,正被资本与 AI 的双重浪潮彻底冲垮。


02 Data Warebase 技术革命破解不可能三角


旧秩序崩塌,真正的拷问浮出水面:到底怎样的技术架构才能承载 AI 时代的洪流?


答案正从 Data Warebase 架构的工程实战中浮现。金融高频交易和风控引擎、车联网日志和安全报警系统、电商推荐系统、广告实时竞价联盟等多个场景的成功实践,宣告数据架构领域持续十年的 “不可能三角” 困局正在瓦解——实时性、多模态、高并发三大核心能力首次在 Data Warebase 架构中实现融合。


Data Warebase 的概念是将 Data Warehouse 与 Database 融合于一体,构建统一的数据底座,以全面支撑 AI 工作流中从数据高吞吐写入、实时加工、高频的分析和检索的全过程。


这场革命的技术本质,源自几个已被验证的关键突破:


其一,PostgreSQL 的生态统治力成为破局基石。 


几乎所有的新型数据库项目都选择基于 PostgreSQL 构建。刚才提到的 Neon 和 CrunchyDB,只是其中的代表,全球近几年新出现的数据库产品无一例外的选择了 PostgreSQL 作为查询 API。PostgreSQL 靠其强大的可扩展性和生态,赢得了全球所有新兴数据库的青睐。一则非官方报道,OpenAI 内部的一个 PostgreSQL 只读从库就部署了近 50 个实例,这意味着行业确认了 AI 时代的数据接口标准。


Anthropic 进一步在 MCP(Model Context Protocol)中直接内置 PostgreSQL 接口,这进一步印证了 PostgreSQL 在 AI 应用工作负载中的关键作用——它不仅是一种数据库,更是 AI 系统与数据交互的中枢平台。


其二,行列混存,多模索引,存算分离


Data Warebase 实现了数据库和大数据的最重要的三个能力:在存储层,它支持数据的行存、列存以及行列混存;在索引上,它实现了分布式数据库最重要的全局二级索引,以及搜索所需要的倒排索引、向量索引、和分析所需要的列存索引等等;最后,它在高速云存储上做到数据库级别的存算分离。


其三,实时增量物化视图技术正在终结流处理引擎时代。 


这项创新被王绍翾在 AICon 大会定义为 “流批一体的终极形态”。其技术原理在于:感知变更的数据、基于高效索引的增量计算、事务型存储三层能力熔铸在统一架构的 Data Warebase 内核中,让 Instant ingestion-transform-retrieval 得以在一个系统中完成,消除传统方案的冗长链路。正如王绍翾所认为,流计算不应依赖外部引擎,真正的实时性必须内生于一个统一的多模数据库之中。


Data Warebase 的本质是通过 PostgreSQL 生态实现多模态数据的协议统一,借实时物化视图完成流批数据的引擎重构,最终在单一产品内实现分布式计算与分布式存储的高效融合。正是这些多重革命,让曾经撕裂的实时性、多模态、高并发能力发生链式反应,从而在数据库内核中溶解了传统架构单机物理隔离造成的性能鸿沟。


03 万亿级市场爆破:谁在收割数据革命红利?


当 Data Warebase 打破数据架构领域持续数十年的 “不可能三角”,商业世界的价值裂变已然在真实战场爆发——从金融领域的量化交易和实时风控,到车机数据每秒更新并即时进行规则匹配和安全分析...... 技术范式跃迁正沿着三重坐标轴撕开万亿市场的豁口:


AI Agent 战场率先掀起革命。未来大部分服务将依托 AI Agent 进行智能交互,而 AI Agent 需要一个强大的 Data API,Data Warebase 提供了强大的多模查询、极致弹性、以及分支管理的能力,能够很好地支持 AI Agent 的场景。未来的 AI Agent,不需要对接多个 MCP,而是连接一个多模数据库。用一个数据库,一个 MCP 接口,极大降低 LLM 大模型的智力和推理的门槛。

金融量化交易正在兑现亚秒级决策。在金融证券行业的极速战场,当每秒百万级行情数据必须实时写入并立即可见时,某头部券商最初采用分布式 OLAP 数据库遇到数据新鲜度和吞吐瓶颈而腰斩,转用分布式 OLTP 数据库又遇到多维分析查询性能过差而被迫放弃——作为 Data Warebase 范式的典型实现,ProtonBase 以亚秒级 Freshness + 高吞吐 Instant Decision 破解该券商的困局,最终在毫秒定盈亏的金融沙场上,将数据新鲜度代差转化为真金白银的盈亏差。


车联网安全监控实现秒级预警重构。面对百万辆电动车每秒涌入的百万条车机信号,某头部车联网企业遭遇监管存储与安全监控的双重夹击——传统架构下核心信号异常监控延迟高达数分钟,而热失控等风险的响应窗口不足 10 秒。通过 ProtonBase 的 Data Warebase 范式,该企业以实时增量物化视图引擎实现秒级数据加工及风险诊断,在统一架构内同步完成历史数据合规存储与关键信号扫描,终结双系统割裂时代。 

04 Data Warebase 提出者终极预判


商业红利的快速涌现印证了王绍翾的前瞻洞见:生态霸权与协议简化正重塑数据基础设施的未来版图。他斩钉截铁预言——PostgreSQL 将在 AI 时代扮演类似 TCP/IP 的基础协议角色,而 Iceberg 终将成为数据湖领域的终极标准。


此刻的技术淘汰赛已进入倒计时:


  • 三年内无法同时支撑 AI Agent 高吞吐交互与实时决策的数据库厂商必将退场。

  • 未来企业只需两个 API:Data API 喂数据,AI API 出决策。


对创业者而言,生存法则从未如此清晰:必须将技术命脉深扎 PostgreSQL 的扩展生态,同时把商业引擎转向全球海域。“Made in China, Sold Global” 不再只是口号,而是技术代差碾压下的必然利润回流。Data Warebase 的本质,正是支撑这一预判的工程基石——通过 PostgreSQL 生态统一数据基座、利用分布式行列混存和多模态索引提升写入和查询性能、使用实时增量物化视图解决实时数据加工、最后利用极致的存算分离技术解决秒级弹性以及存储和计算的无限水平扩展,将全链路(写入、加工、和查询)亚秒级的决策能力转化为全球企业的生产现实。而它正在点燃的,不止是技术架构的重构之火,更是一场全球产业权力的无声迁徙。

2025-06-30 11:544501

评论

发布
暂无评论

Mysql的索引数量是否越多越好?为什么?

电子尖叫食人鱼

MySQL 数据库

百度智能云AI“打工人”天团上线,7款数字员工“落地即上岗”

科技热闻

CAD怎样裁剪图像

极客天地

CAD网络版授权如何PING

极客天地

“敏捷产品管理精进课程” 10月18-19日 · A-CSPO认证【提前报名特惠】

ShineScrum

产品负责人 CSPO认证

YashanDB SYS_CONNECT_BY_PATH函数

YashanDB

数据库 大数据

用户行为分析入门:行为事件分析指标解读

ClkLog

开源 埋点 sdk 用户行为分析 用户画像

基于开发者空间部署OpenGauss完成AI智能索引和参数自调优实践

华为云开发者联盟

opengauss AI+ 华为开发者空间

AI无法拯救病入膏肓的企业 —— 但会让问题暴露无遗

ShineScrum

领导力 敏捷领导力 +AI jishu

8篇入选,1项最佳论文提名!快手AI 研究在KDD2025 “全面开花”

快手技术

人工智能 大模型 KDD 顶会论文

YashanDB SYS_GUID函数

YashanDB

数据库 大数据

组装式开发范式:当代App高效构建的最优解之争

xuyinyin

Figma上市狂飙,下一个中国版Figma在哪里?

职场工具箱

产品设计 设计师 figma 在线协作 ui设计

神经网络编码提升音频丢包恢复效率

qife122

神经网络 丢包恢复

YashanDB SYS_CONTEXT函数

YashanDB

数据库 大数据

同方智慧能源:OceanBase助力构建安全可靠、高性能的能源数据底座

老纪的技术唠嗑局

能源 OceanBase 社区版 #大数据

“全球金牌敏捷课程” · 8月23-24日CSM认证课程

ShineScrum

Scrum Master CSM认证培训

高校、智库如何通过舆情监测提升学术服务力

沃观Wovision

海外舆情监控 沃观Wovision 舆情监测系统

必看!导致事务失效的7大典型场景!

王磊

Fabarta 个人专属智能体多版本上线:覆盖多领域场景,可结合需求灵活部署

Fabarta

人工智能 智能体

微服务拆分粒度,拆得太细还是太粗?一线架构师实战指南!

我爱娃哈哈😍

微服务 服务拆分

CAD光标如何在悬停图片时高亮显示

极客天地

分享‘动态化-Android资深开发工程师’的面试题

Y11

互联网 面试 开发 找工作 笔试

后量子密码学的未来准备

qife122

加密技术 后量子密码学

“团队敏捷教练进阶课程” 9月6-7日 · 在线A-CSM认证周末班

ShineScrum

Scrum Master CSM认证 A-CSM

YashanDB SYS_EXTRACT_UTC函数

YashanDB

数据库 大数据

海外舆情监测数据怎么转化为选题、内容与广告创意?

沃观Wovision

海外舆情监控 沃观Wovision 舆情监测系统

跨平台分词利器:基于开发者空间进行仓颉版Tokenizer的Qwen模型适配

华为云开发者联盟

AI+ CodeArts 仓颉 Qwen2.5

如何在代码中验证sql的正确性?

不在线第一只蜗牛

数据库 sql

“数字创新产品课程” 8月16-17日 · CSPO认证在线课程

ShineScrum

产品负责人 CSPO认证 CSPO

YashanDB SYSTIMESTAMP函数

YashanDB

数据库 大数据

AI 正在批量 “创建” 数据库:一场由 Agent 引发的千亿级数据架构革命_DataOps_InfoQ精选文章