从告警到事后分析：谷歌云SRE团队如何运用Gemini CLI应对服务中断

在最近的一篇博文中，谷歌云 SRE 团队描述了他们内部如何使用AI驱动的Gemini CLI来解决现实世界的中断。通过将智能推理直接集成到基于终端的操作工具中，这种方法提高了关键基础设施操作的可靠性，并缩短了事件响应时间。

根据作者的说法，基于 Gemini 3 构建的Gemini CLI可以在中断处理的每个阶段为团队提供帮助，从分类、初步缓解到根因分析及自动生成事后分析。这有助于缩短平均缓解时间（MTTM）并最小化用户影响，同时保持 SRE 团队对安全验证的控制权。谷歌开发大使Riccardo Carlesso和软件工程师Ramón Medrano Llamas概要介绍了他们的最终目标：

我们非常关注 MTTM。与故障平均修复时间（MTTR）不同，MTTM 关乎速度：我们能多快止痛？在这个领域，SRE 团队的服务水平目标（SLO）通常是用 5 分钟来确认一个告警，之后便面临极大的问题缓解压力。

作者解释说，虽然一个典型的事件会经历四个标准阶段（告警、缓解、根因分析和事后分析），但 AI 驱动的 Gemini CLI 可以在其中的每一步提供帮助，从而缩短 MTTM。他们使用一个虚构的事件，展示了一个完全由终端驱动的完整的事件生命周期。从告警和初步调查开始，他们解释说：

这个任务非常适合大型语言模型（LLM）：对症状进行分类并选择一个缓解方案。缓解方案是一份动态创建的指导手册，目的是让智能体能够安全地执行生产变更。该方案既可以包括要运行的命令，还可以包括验证变更是否有效地解决了问题或者回滚变更的指令。

该方法目前还需要人参与其中验证建议的缓解措施。随着智能体能力的成熟和智能安全系统的发展，对人的依赖预计会逐步减少。执行操作前需要进行详细的安全检查，因为在一个上下文中安全的操作在另一个上下文中可能不安全。该 CLI 方法强制执行分层的安全控制，确保智能体只是为操作人员提供支持而不是自主完成操作。

接下来的重点是识别根本原因并制定长期解决方案。在确认基础设施运行正常后，问题被归结为应用程序逻辑方面，然后智能体被引导访问相关的源代码。

最后一步是事后分析：虽然整理时间线、日志和行动方案往往很繁琐，但 Gemini CLI 能通过自定义命令简化这个过程——该命令可抓取事件对话历史、指标和日志，自动生成 CSV 时间线，创建 Markdown 文档，并提出防止事件再次发生的行动建议。Carlesso 和 Medrano Llamas 提醒道，尽管他们的例子使用了谷歌内部的一些工具，但这种模式具有普适性。他们总结道：

最令人兴奋的部分或许是接下来会发生什么。我们刚刚生成的事后分析？它变成了训练数据。通过将过去的事后分析反馈给 Gemini，我们创建了一个可以自我完善的良性循环：今天的调查输出会成为明天的解决方案输入。

借助Gemini CLI、MCP 服务器将 Gemini 连接至 Grafana、Prometheus 和 PagerDuty 等工具，并结合自定义斜杠命令（定义可复用提示以简化与 Gemini CLI 的交互），可以构建出类似的工作流。

原文链接：

https://www.infoq.com/news/2026/02/google-sre-gemini-cli-outage/

创作场景

从告警到事后分析：谷歌云 SRE 团队如何运用 Gemini CLI 应对服务中断