写点什么

当数据库的主要用户不再是人类:我们在 AI Agent 场景下的架构实践与思考

  • 2026-03-27
    北京
  • 本文字数:5475 字

    阅读完需:约 18 分钟

一个让我们重新审视数据库的数字

过去一年,我们在 TiDB Cloud 上观察到一个趋势性变化:每天新创建的数据库集群中,超过 90% 不是由人类创建的,而是由 AI Agent 自动发起的。

这不是某个极端客户的个例,而是正在成为常态。Agent 创建数据库、生成 schema、写 SQL、跑实验、销毁数据库——全程不需要 DBA 介入,甚至不需要人类知道它发生过。

这个数字迫使我们重新审视一个根本问题:当数据库的主要用户从人类变成 AI Agent 时,过去二十年我们围绕"人类使用数据库"所构建的一切假设——容量规划、schema 设计、运维流程、定价模型——还能成立吗?

这篇文章不打算做产品介绍。我想分享的是过去一年里,我们在服务几家 AI 公司时遇到的真实挑战、做出的架构决策、以及踩过的坑。这些经验或许对正在构建 AI Agent 应用的团队有参考价值。

Agent 工作负载的四个特征:为什么传统数据库会被打穿

在深入案例之前,先把我们观察到的 Agent 工作负载特征做一个归纳。这不是理论推演,而是从真实生产环境中反复出现的模式。

特征一:海量短命实例

传统应用的数据库是"一个产品一个库"或"一个租户一个 schema"。但在 Agent 场景下,粒度变成了"一个 Agent / 一个 session 一个逻辑数据库"。我们见过一个客户三个月创建了近百万个数据库租户,其中约 99% 是一次性使用的。

如果按传统云数据库的定价模型——最小实例每月十几到二十美元——百万实例意味着天文数字的月账单。问题不是数据库贵,而是贵到商业模式算不过来。

特征二:数据库成了 Agent 的工作台,不是存储仓库

Agent 不是把数据"存进去就完了"。以一个典型的数据分析任务为例:Agent 先从网上抓取原始资料,结构化存入数据库表,然后用 SQL 做清洗、统计、聚类、离散分析,最后生成报告。如果数据只停留在 Markdown 或纯文本里,后续处理只能继续依赖大模型"泛泛看一眼",分析质量完全交给模型幻觉。落到数据库里,SQL 是确定性的、代码是可审计的,分析才真正可工程化。

更激进的是建站类场景:Agent 直接帮用户搭建一个网站,网站要持续运营、持续收费。这意味着 Agent 创建的数据库不是临时的,而是一个真正的生产系统。而且——schema 也是 AI 写的。一旦 schema 由 AI 动态生成,"一个 Agent 一个库"就不仅是隔离问题,而是控制爆炸半径:写错了只影响当前 Agent,不波及其他租户。

特征三:上下文即数据,而且越来越长

在很多复杂 Agent 系统中,为了实现可恢复、可审计和跨 session 的检索,关键上下文需要被持久化。持久化的载体可以是文件索引、日志存储或数据库——但当 Agent 需要对上下文做结构化查询、跨任务关联分析时,数据库的优势就会显现出来。我们服务的几家客户最终都走向了这个方向。

而且上下文在变长。我们有客户的单条 context 达到 30MB-50MB,内容包括文本和音频。这已经远远超出传统 OLTP 数据库的舒适区。

特征四:流量不可预测,但成本必须可控

Agent 不像人类按工作时间使用数据库。它们可能在凌晨三点突然发起一波密集查询,也可能连续几小时完全沉默。如果为这种"间歇性活跃"长期维持整套计算资源,客户和服务方都会双输。

案例一:当数据库成本决定产品能不能上线

第一个案例是某全球知名 AI Agent 平台。

作为一个通用型 AI Agent 平台,发布 waitlist 后迅速积累了两百万以上的等待用户。但从发布 waitlist 到真正开放,中间隔了将近两个月。这段时间不是产品没准备好——Agent 控制层已经是无状态的,可以随时拉起和销毁。真正卡住他们的,是数据库。

问题的本质:不是做不出 Demo,而是 Demo 无法规模化

它的产品形态里,一个 session 就是一个 Agent。同一 session 内任务连续、上下文连贯;跨 session 通常意味着业务目标不同,需要一个新的独立环境。所以他们的需求不是"一个产品一个库",而是"一百万个 Agent 需要一百万个逻辑数据库"。

他们最早评估的方案,最小实例月成本大约十几到二十美元。单看不贵,但乘以百万,商业模式直接崩盘。

这就是这个案例最有力量的地方:数据库方案不是性能优化项,而是决定业务能不能上线的前提条件。

我们是怎么解的

解法可以概括成三层。

第一层:一个物理集群承载海量逻辑租户。 不是每个 Agent 一套独占实例,而是共享基础设施 + 逻辑隔离。多租能力本身,就是成本被打下来的基础。

但多租的前提是元数据能扛住。这里有一个背景:我们之前有一个做插件生态的客户,插件数 × 租户数的乘积把数据库元数据规模推到了千万级别。这逼着团队做了大量 meta 层优化,最终在测试中跑到了两千万张表以上的量级。正因为这个能力已经就绪,第一个案例那种百万级 Agent 的场景才是可承接的。

第二层:存算分离,做到更极致的弹性,把成本进一步压下去。底层以对象存储作为全量数据的持久化层,上层叠缓存处理热数据;计算层弹性调度,在 Agent 场景下可以接近 scale-to-zero。Agent 不是 24 小时持续高活,很多用户一天只活跃几次。如果为间歇性活跃长期维持整套计算资源,成本是没有意义的。

第三层:接受合理的 trade-off。 弹性不是零代价的。计算节点唤起时会有冷启动延迟,大约百毫秒。但在 Agent 场景里,这通常是可接受的——大模型推理本身就是秒级的,LLM 生成的查询也不是高度优化的毫秒级 SQL。省下的是数量级的成本,付出的只是用户几乎无感的一点启动延迟。

还有一个容易被忽视的点:资源隔离。 海量租户共用基础设施时,最怕的不是平均负载高,而是某一个 Agent 把资源打爆、拖垮整池。所以除了多租和弹性,还必须把 resource control 做到位,让每个 Agent 的资源消耗有清晰的边界。

一个关键教训:测试你的真实工作负载,不要测基准

客户从 MySQL 迁移到 TiDB,因为 MySQL 协议兼容,几乎没有代码改动,整个过程在两周内完成。但切换上线时,仍然花了大约三小时做查询计划调优。原因是:标准 TPCC 基准测试并不能反映 客户 Agent 实际生成的查询模式——那些查询是复杂的上下文重建,需要不同于常规事务的索引策略。

这是一个值得所有 AI 应用团队记住的经验:AI Agent 生成的 SQL 和人类写的 SQL 不一样,标准基准跑得再好,也不代表生产没问题。

案例二:30MB 的上下文到底该存在哪里

第二个案例是 Plaud,一家 AI 硬件公司,产品是 AI 笔记硬件,全球超过 150 万用户。

如果说案例一讲的是"Agent 数量与成本模型",Plaud 讲的则是"长上下文和多媒体数据的存储架构"。

问题的本质:不是没地方存,而是存储架构太绕

Plaud 的 context 很长,最长大约 30MB 到 50MB,主要是文本和音频。按照传统做法,这类大对象不会直接进数据库,而是进对象存储(S3),数据库只存元数据。

但一旦原始数据和元数据分开,工程问题就排着队来了:

一致性问题。 数据在 S3,索引在数据库,任何修改、覆盖、删除都要自己保证两边一致。实际上,很多线上故障就死在这个环节。

性能问题。 S3 吞吐高但延迟也高,于是业务不得不再加一层缓存。但缓存并不能消灭问题,因为很多查询仍然会穿透。再加上 bucket 文件越多,枚举和查询越慢,长尾延迟会变得非常难看。

最终你得到的是一套"对象存储 + 元数据库 + 缓存层 + 一致性补偿"的复杂链路。能跑,但脆弱。

范式变化:把长上下文收回数据库

我们给 Plaud 的方案不是"继续优化这条链路",而是改变范式:很多长 context 可以直接存在数据库字段里。

在真实生产中,TiDB 的单字段可以支撑到 100MB 量级。这意味着用户的整段交互上下文——包括音频转写文本——都可以直接落在数据库中。事务性、一致性、SQL 查询能力全部保留,那套复杂的 S3 + Meta 拼接链路就可以大幅简化。

这里需要强调一点:重要的不只是"能存长",而是"在能存长的同时,仍保留 SQL 和事务能力"。 如果只是换成某种偏 AP 的系统,当然也能塞大对象,但事务性和查询语义就得自己补——这不是白得来的。

一个被低估的传统能力:在线 DDL

Plaud 还验证了一个传统数据库能力在 AI 时代的价值:在线 schema 变更。

AI 原生应用的数据结构比传统业务更不稳定,schema 变更频率高得多。如果每次改表都要等锁表、等停机窗口,发布节奏就会被迫堆积,研发为了赶窗口把多个变更一起上,质量反而更差。不锁表的 DDL 让业务发布和 schema 发布可以同步推进,这在 AI 产品的快速迭代中格外重要。

案例三:分库分表做到第二十个分片之后

第三个案例是某国内头部大模型公司。

他们的产品形态更接近传统的高频对话场景,和前两个案例相比并不算"极端"。但量一大,传统方案也会碰壁。

问题:维护复杂度先于性能崩溃

他们基于 PostgreSQL 做了大量分库分表,最终做到了十几到接近二十个分片。按理说分片加下去性能还能撑,但团队先扛不住了——跨分片查询越来越复杂,schema 变更要逐片执行,监控和告警要乘以分片数,新人入职的学习成本越来越高。

这是一个很重要的判断:AI 流量不一定首先死在模型成本上,也可能先死在数据层的架构复杂度上。

顺带验证的一件事

他们的单条 context 没有 Plaud 那么长,大约几 MB 级别,但原来也是放在对象存储上的。迁移到 TiDB 后,把其中一部分 context 收回了数据库,目的很简单:简化架构。

这和 Plaud 的故事互相印证了:即便不是极端长上下文,只要 context 大到让"对象存储 + 元数据 + 分片数据库"的组合开始变笨重,把更多内容收回数据库也是合理的演进方向。

从数据库到记忆层:Agent 基础设施的下一个需求

在服务这几家客户的过程中,我们还观察到一个更深层的需求正在浮现。

前面三个案例讲的,主要还是 Agent 对数据库层的需求:结构化存储、上下文持久化和多租户隔离。但当 Agent 开始跨 session、跨设备、跨任务连续工作时,问题就不再只是"把数据存下来",而是"如何把过去的信息在合适的时候、以合适的形式重新带回模型上下文"。传统数据库当然可以保存用户偏好、历史决策和项目资料;真正缺少的是一层面向 Agent 的记忆机制,去完成记忆的沉淀、索引、检索、筛选和注入。否则,即使数据仍然在库里,Agent 在新 session 中也很难低成本地恢复到上一次的工作状态,看起来就像每次都要从零开始。

这个观察促成了 mem9 的诞生。

mem9 是一个开源的 AI Agent 持久记忆基础设施(Apache 2.0),底层用 TiDB 做持久化和向量搜索。它以一层 REST API 暴露给 Agent 框架,提供记忆的写入、混合搜索(向量 + 关键词)、跨 session 恢复等能力。Agent 框架只需对接这一层 API,不需要关心底层的存储、索引和搜索实现。

从架构上看,这是 Agent 数据基础设施的自然分层演进:

前两层是数据系统的自然延伸,第三层是一个新的独立需求。但它并不是脱离数据库的——mem9 底层仍然依赖分布式数据库的事务性、向量搜索和弹性扩展能力。这不是"数据库不够用了所以加一层",而是"数据库的能力通过一个专门为 Agent 设计的 API 层暴露出来"。

mem9 目前已经集成了 OpenClaw 生态,代码在 GitHub 上开源:github.com/mem9-ai/mem9。

几个实践教训

最后分享几个跨案例的经验总结。

  1. 定价模型也需要为 Agent 重新设计。

如果每个 Agent 或 session 对应一个传统云数据库实例(哪怕是最小规格),会让绝大多数商业模式难以维系。我们在案例一的场景中放弃了按实例定价,改为基于实际资源消耗的聚合计费模型。这不是可选的优化——对于 Agent 密度足够高的场景,这是前提条件。

  1. Agent 生成的 SQL 和人类写的 SQL 是两个物种。

不要用 TPCC 或 sysbench 的结果来预判 Agent 场景下的数据库表现。Agent 的查询模式是不规则的、多变的、且往往不是最优的。上线前必须用真实的 Agent 工作负载做压测,否则一定会在切换当天遇到意料之外的慢查询。

  1. 简化架构比优化架构更有价值。

在 AI 应用的快速迭代节奏下,维护一套"对象存储 + 元数据库 + 缓存层 + 分片 + 一致性补偿"的复杂链路,运维成本和心智负担会很快变成瓶颈。如果数据库本身能承载长上下文和大对象,那么减少一层组件,比优化每一层的性能更有实际意义。

  1. 记忆将成为 Agent 基础设施的标配。

今天大多数 Agent 应用还在"无状态"模式下运行——每次对话独立,没有跨 session 的连续性。但随着 Agent 开始承担更复杂、更长期的任务(比如持续运营一个网站、跟进一个客户关系),跨 session 的持久记忆就会从"nice to have"变成刚需。这是我们启动 mem9 的原因,也是我们认为 Agent 数据基础设施下一个必须补上的能力。

写在最后

过去一年的经历让我们形成了一个核心判断:AI 时代的竞争优势不在模型大小,而在数据基础设施能否支撑 Agent 的工作方式。

当数据库的主要用户从人类变成 Agent,数据库不再是一个被动的存储系统,而是 Agent 的操作底座——它们在上面创建、查询、分支、合并、销毁,像使用一个可编程的基底。

这对数据库行业是一次根本性的范式转移。而我们的经验是:不要试图用旧架构"兼容"新需求,而是从 Agent 的工作方式出发,重新思考数据库应该是什么样的。

值得一提的是, TiDB Cloud 与即将上线的“平凯数据库云服务”技术同源,平凯数据库云服务面向中国市场,通过主流云厂商适配与本地化服务,让中国客户无需试错,即可享受经全球头部客户考验、百万生产集群大规模长期验证的云数据库服务。二者体验一致,无论企业是深耕国内市场还是开拓海外业务,都能以统一技术栈,高弹性伸缩来灵活应对海量数据处理与 AI 创新需求。平凯数据库云服务将于 2026 年 4 月 1 日上线!

作者简介

黄东旭,TiDB 联合创始人兼 CTO,TiDB / TiKV 核心作者。在分布式系统和数据库架构领域有超过 10 年经验。近期关注 AI Agent 数据基础设施方向,主导了开源项目 mem9(github.com/mem9-ai/mem9)和 db9(https://db9.ai

参考资料

TiDB X 架构设计:The Making of TiDB X — Origins, Architecture, and What's to Come

mem9 开源仓库:github.com/mem9-ai/mem9