把数据库运维这件苦差事，交给 AI Agent

凌晨三点，告警群响起来。CPU 100%、业务大面积超时，值班 DBA 爬起来登控制台、抓 Top SQL、查锁等待、拉业务方对齐——半小时过去，根因刚刚定位到。

这是过去十年大多数数据库团队的日常。但到 2026 年这套打法已经撑不下去：数据库形态从关系型走到 NoSQL、云原生、分布式、多模，复杂度指数级飙涨；资深 DBA 培养至少三年，人力线性增长，怎么追都追不上。剪刀差越拉越大，堆人、堆工具、堆 SOP 都走到了头。问题不再是"要不要让 AI 接管"，而是"怎么让 AI 真的能接管"。

围绕这个命题，腾讯云数据库团队的解法可以拆成三层来看：诊断引擎怎么进化、安全底座怎么搭、Agent 怎么跑通生产闭环。

撬开监控黑盒：DBbrain 把诊断手艺打包成 AI 算子

数据库运维最折磨人的从来不是看不到指标，而是看到 CPU、IO、QPS 飙红，却没法解释"到底是谁在搞事"。传统监控站在数据库外侧往里看，能拿到的都是粗粒度数据，根因只能靠老 DBA 的直觉。

DBbrain 的思路是钻进内核里去——基于 MySQL Performance Schema 做内核级观测，叠一层全链路 SQL 审计，数据库每一刻在发生什么都被记录下来。

核心是一条 Average Active Sessions（AAS，平均活跃会话数）曲线叠加 Max vCPU 水位线：AAS 低于水位线时资源稳得住，一旦超过业务就开始变慢，不用对照一堆指标心算。异常发生后框选时间段，通过 Top Waits、Top SQL、Top Host/User/Database 五维交叉切片互相印证——比如等待是锁等待 + Top SQL 里有条慢 UPDATE + Host 集中在某业务网段，根因即刻锁死。死锁场景也不用再靠 SHOW ENGINE INNODB STATUS 一行行刨，DBbrain 抓锁快照、自动梳理阻塞关系、组织成阻塞树，找到根节点一键 kill，从异常到止损分钟级搞定。

真正烧脑的是另一种场景——CPU 突然打满，慢 SQL 干干净净。元凶是微秒级 SQL 并发风暴：单条 SQL 执行只要几十微秒，业务接口没限频瞬间洪水般灌进来，Performance Schema 一秒采一次根本捕捉不到。DBbrain 上全量数据库审计配合 SQL 指纹聚合分析和秒级时间窗口聚合，框选异常那一秒问题模板立刻浮出来。止损叠上 SQL 级限流——按指纹设并发上限，超出的请求在应用端直接失败，先把数据库保住。

基于 10w+ 工单积攒的诊断手艺，这次集体打包成 API、封装为标准 AI 算子，作为"诊断大脑"接进 DatabaseClaw。

Agent 进生产的门槛：先想清楚它不能做什么

让 Agent 直连生产数据库，听上去很美做起来要命。腾讯云团队动手时，第一份清单不是"Agent 能做什么"，而是"Agent 不能做什么"：不能持有数据库密码、不能自由执行 DROP/TRUNCATE、不能越权、所有动作必须可审计、高危变更必须有人兜底审批。写完发现，这不就是 DBA 二十年来一直在盯的事吗？只不过操作者从人换成了 AI。

巧的是 DMC（腾讯云数据库管理产品）沉淀的能力恰好把这张清单一条条对上：账号统一托管、库表粒度最小权限、规则模板拦截无 WHERE 的 UPDATE/DELETE、高危 SQL 强制走多级审批、全程留痕。这套机制抬一层就成了 Agent 操作生产环境的安全底座。

但融合没那么顺，团队踩了三个坑：概念冲突——用户不关心"快捷登录实例"和"管控实例"的分类，只想知道"我有哪些库能用"，戳破了工具型产品和 AI 原生产品根本是两套语言；信任冲突——同一个高权限账号 DBA 用没问题给 AI 用立刻不放心，账号没变但用户那杆心理秤变了；审批冲突最关键——发起 / 查询 / 催办都可以 Skill 化，但审批不能，审批的本质是决策不是操作，一旦交出去整条链路就没人卡得住。

捋清后团队把 DMC 能力做了四象限：直接 Skill 化（库表查询、SQL 执行）、改造后 Skill 化（统一数据源概念）、坚决不做 Skill 化（规则模板和审批是护栏）、Agent 自己长出来（意图识别、对话级数据源选取），拼出"开放—管控—追溯"的企业级 Agent 操作闭环。

DatabaseClaw：让 Agent 真的能托付

主角登场。DatabaseClaw 是腾讯云数据库专属的 AI Agent，安全防护铺了四层：权限上对齐 CAM、凭证动态生成限时生效；访问上不索要明文密码、所有 SQL 通过 DMC 走；行为上把 SQL 操作分 L1~L4 四级，宽条件 UPDATE/DELETE、TRUNCATE、DROP 这些 L4 高危操作 Agent 永远不能碰；架构上部署在客户自有 VPC、数据物理上不出域，大模型只接收脱敏后的元数据。

光有安全还不够，DatabaseClaw 的杀手锏是 Skill 生态——把顶尖 DBA 的实战经验固化成可调用、可复用、可组合的能力单元，来自三个地方：腾讯云内部真实工单打磨的官方 SOP、SkillHub 上的社区 Skill、客户自己沉淀的私有 Skill。

举个例子：某条线上 MySQL 的 SQL 突然变慢，通用大模型上去会"就事论事"地查索引、查表结构、查扫描行数，告诉你"看着没啥问题"。真正的根因藏在外面——一个 DTS 同步任务在拖累主库。这种受 DTS、备份、参数模板下发等外部任务干扰的场景，模型再强也想不到。DatabaseClaw 调预置诊断 Skill 自动把关联服务状态拉过来比对，根因瞬间现形。Skill 等于把 DBA 的经验工程化——这是模型再大也替代不了的事。

效率提升肉眼可见：CPU 异常排障老路子半小时起步，DatabaseClaw 2~3 分钟给出修复建议；例行巡检从"实例视角"升级到"业务视角"，跨实例、跨 Region、跨产品统一巡检，自动 highlight 问题、对比历史趋势，效率拉高 6 倍（腾讯数据库内部团队的真实基线）。

它也不会停在发布那一刻。团队从内部抽 6800+ 张真实工单做评测、精选 198 道题覆盖 CPU 打满、慢 SQL、主从延迟等场景，Agent 输出与专家校验比对反推能力进化；通过 Memory 积累经验、Skill 注入专家知识、业务领域学习理解客户特征，越用越懂业务。

AI 原生产品最大的红利从来不是大模型本身多强，而是它把那些已经存在、被认为"定型"的存量能力重新激活。DBbrain 让 AI 看清楚、DMC 让 AI 守规矩、DatabaseClaw 把两件事串起来跑通业务闭环——数据库运维这件事上，AI Agent 第一次从"能用"走到了"可托付"。

创作场景

把数据库运维这件苦差事，交给 AI Agent

撬开监控黑盒：DBbrain 把诊断手艺打包成 AI 算子

Agent 进生产的门槛：先想清楚它不能做什么

DatabaseClaw：让 Agent 真的能托付