写点什么

把数据库运维这件苦差事,交给 AI Agent

  • 2026-06-04
    北京
  • 本文字数:2358 字

    阅读完需:约 8 分钟

凌晨三点,告警群响起来。CPU 100%、业务大面积超时,值班 DBA 爬起来登控制台、抓 Top SQL、查锁等待、拉业务方对齐——半小时过去,根因刚刚定位到。

这是过去十年大多数数据库团队的日常。但到 2026 年这套打法已经撑不下去:数据库形态从关系型走到 NoSQL、云原生、分布式、多模,复杂度指数级飙涨;资深 DBA 培养至少三年,人力线性增长,怎么追都追不上。剪刀差越拉越大,堆人、堆工具、堆 SOP 都走到了头。问题不再是"要不要让 AI 接管",而是"怎么让 AI 真的能接管"。

围绕这个命题,腾讯云数据库团队的解法可以拆成三层来看:诊断引擎怎么进化、安全底座怎么搭、Agent 怎么跑通生产闭环。

撬开监控黑盒:DBbrain 把诊断手艺打包成 AI 算子

数据库运维最折磨人的从来不是看不到指标,而是看到 CPU、IO、QPS 飙红,却没法解释"到底是谁在搞事"。传统监控站在数据库外侧往里看,能拿到的都是粗粒度数据,根因只能靠老 DBA 的直觉。

DBbrain 的思路是钻进内核里去——基于 MySQL Performance Schema 做内核级观测,叠一层全链路 SQL 审计,数据库每一刻在发生什么都被记录下来。

核心是一条 Average Active Sessions(AAS,平均活跃会话数)曲线叠加 Max vCPU 水位线:AAS 低于水位线时资源稳得住,一旦超过业务就开始变慢,不用对照一堆指标心算。异常发生后框选时间段,通过 Top Waits、Top SQL、Top Host/User/Database 五维交叉切片互相印证——比如等待是锁等待 + Top SQL 里有条慢 UPDATE + Host 集中在某业务网段,根因即刻锁死。死锁场景也不用再靠 SHOW ENGINE INNODB STATUS 一行行刨,DBbrain 抓锁快照、自动梳理阻塞关系、组织成阻塞树,找到根节点一键 kill,从异常到止损分钟级搞定。

真正烧脑的是另一种场景——CPU 突然打满,慢 SQL 干干净净。元凶是微秒级 SQL 并发风暴:单条 SQL 执行只要几十微秒,业务接口没限频瞬间洪水般灌进来,Performance Schema 一秒采一次根本捕捉不到。DBbrain 上全量数据库审计配合 SQL 指纹聚合分析和秒级时间窗口聚合,框选异常那一秒问题模板立刻浮出来。止损叠上 SQL 级限流——按指纹设并发上限,超出的请求在应用端直接失败,先把数据库保住。

基于 10w+ 工单积攒的诊断手艺,这次集体打包成 API、封装为标准 AI 算子,作为"诊断大脑"接进 DatabaseClaw。

Agent 进生产的门槛:先想清楚它不能做什么

让 Agent 直连生产数据库,听上去很美做起来要命。腾讯云团队动手时,第一份清单不是"Agent 能做什么",而是"Agent 不能做什么":不能持有数据库密码、不能自由执行 DROP/TRUNCATE、不能越权、所有动作必须可审计、高危变更必须有人兜底审批。写完发现,这不就是 DBA 二十年来一直在盯的事吗?只不过操作者从人换成了 AI。

巧的是 DMC(腾讯云数据库管理产品)沉淀的能力恰好把这张清单一条条对上:账号统一托管、库表粒度最小权限、规则模板拦截无 WHERE 的 UPDATE/DELETE、高危 SQL 强制走多级审批、全程留痕。这套机制抬一层就成了 Agent 操作生产环境的安全底座。

但融合没那么顺,团队踩了三个坑:概念冲突——用户不关心"快捷登录实例"和"管控实例"的分类,只想知道"我有哪些库能用",戳破了工具型产品和 AI 原生产品根本是两套语言;信任冲突——同一个高权限账号 DBA 用没问题给 AI 用立刻不放心,账号没变但用户那杆心理秤变了;审批冲突最关键——发起 / 查询 / 催办都可以 Skill 化,但审批不能,审批的本质是决策不是操作,一旦交出去整条链路就没人卡得住。

捋清后团队把 DMC 能力做了四象限:直接 Skill 化(库表查询、SQL 执行)、改造后 Skill 化(统一数据源概念)、坚决不做 Skill 化(规则模板和审批是护栏)、Agent 自己长出来(意图识别、对话级数据源选取),拼出"开放—管控—追溯"的企业级 Agent 操作闭环。

DatabaseClaw:让 Agent 真的能托付

主角登场。DatabaseClaw 是腾讯云数据库专属的 AI Agent,安全防护铺了四层:权限上对齐 CAM、凭证动态生成限时生效;访问上不索要明文密码、所有 SQL 通过 DMC 走;行为上把 SQL 操作分 L1~L4 四级,宽条件 UPDATE/DELETE、TRUNCATE、DROP 这些 L4 高危操作 Agent 永远不能碰;架构上部署在客户自有 VPC、数据物理上不出域,大模型只接收脱敏后的元数据。

光有安全还不够,DatabaseClaw 的杀手锏是 Skill 生态——把顶尖 DBA 的实战经验固化成可调用、可复用、可组合的能力单元,来自三个地方:腾讯云内部真实工单打磨的官方 SOP、SkillHub 上的社区 Skill、客户自己沉淀的私有 Skill。

举个例子:某条线上 MySQL 的 SQL 突然变慢,通用大模型上去会"就事论事"地查索引、查表结构、查扫描行数,告诉你"看着没啥问题"。真正的根因藏在外面——一个 DTS 同步任务在拖累主库。这种受 DTS、备份、参数模板下发等外部任务干扰的场景,模型再强也想不到。DatabaseClaw 调预置诊断 Skill 自动把关联服务状态拉过来比对,根因瞬间现形。Skill 等于把 DBA 的经验工程化——这是模型再大也替代不了的事。

效率提升肉眼可见:CPU 异常排障老路子半小时起步,DatabaseClaw 2~3 分钟给出修复建议;例行巡检从"实例视角"升级到"业务视角",跨实例、跨 Region、跨产品统一巡检,自动 highlight 问题、对比历史趋势,效率拉高 6 倍(腾讯数据库内部团队的真实基线)。

它也不会停在发布那一刻。团队从内部抽 6800+ 张真实工单做评测、精选 198 道题覆盖 CPU 打满、慢 SQL、主从延迟等场景,Agent 输出与专家校验比对反推能力进化;通过 Memory 积累经验、Skill 注入专家知识、业务领域学习理解客户特征,越用越懂业务。

AI 原生产品最大的红利从来不是大模型本身多强,而是它把那些已经存在、被认为"定型"的存量能力重新激活。DBbrain 让 AI 看清楚、DMC 让 AI 守规矩、DatabaseClaw 把两件事串起来跑通业务闭环——数据库运维这件事上,AI Agent 第一次从"能用"走到了"可托付"。