在最近的一篇博文中,谷歌云 SRE 团队描述了他们内部如何使用AI驱动的Gemini CLI来解决现实世界的中断。通过将智能推理直接集成到基于终端的操作工具中,这种方法提高了关键基础设施操作的可靠性,并缩短了事件响应时间。
根据作者的说法,基于 Gemini 3 构建的Gemini CLI可以在中断处理的每个阶段为团队提供帮助,从分类、初步缓解到根因分析及自动生成事后分析。这有助于缩短平均缓解时间(MTTM)并最小化用户影响,同时保持 SRE 团队对安全验证的控制权。谷歌开发大使Riccardo Carlesso和软件工程师Ramón Medrano Llamas概要介绍了他们的最终目标:
我们非常关注 MTTM。与故障平均修复时间(MTTR)不同,MTTM 关乎速度:我们能多快止痛?在这个领域,SRE 团队的服务水平目标(SLO)通常是用 5 分钟来确认一个告警,之后便面临极大的问题缓解压力。
作者解释说,虽然一个典型的事件会经历四个标准阶段(告警、缓解、根因分析和事后分析),但 AI 驱动的 Gemini CLI 可以在其中的每一步提供帮助,从而缩短 MTTM。他们使用一个虚构的事件,展示了一个完全由终端驱动的完整的事件生命周期。从告警和初步调查开始,他们解释说:
这个任务非常适合大型语言模型(LLM):对症状进行分类并选择一个缓解方案。缓解方案是一份动态创建的指导手册,目的是让智能体能够安全地执行生产变更。该方案既可以包括要运行的命令,还可以包括验证变更是否有效地解决了问题或者回滚变更的指令。
该方法目前还需要人参与其中验证建议的缓解措施。随着智能体能力的成熟和智能安全系统的发展,对人的依赖预计会逐步减少。执行操作前需要进行详细的安全检查,因为在一个上下文中安全的操作在另一个上下文中可能不安全。该 CLI 方法强制执行分层的安全控制,确保智能体只是为操作人员提供支持而不是自主完成操作。
接下来的重点是识别根本原因并制定长期解决方案。在确认基础设施运行正常后,问题被归结为应用程序逻辑方面,然后智能体被引导访问相关的源代码。
最后一步是事后分析:虽然整理时间线、日志和行动方案往往很繁琐,但 Gemini CLI 能通过自定义命令简化这个过程——该命令可抓取事件对话历史、指标和日志,自动生成 CSV 时间线,创建 Markdown 文档,并提出防止事件再次发生的行动建议。Carlesso 和 Medrano Llamas 提醒道,尽管他们的例子使用了谷歌内部的一些工具,但这种模式具有普适性。他们总结道:
最令人兴奋的部分或许是接下来会发生什么。我们刚刚生成的事后分析?它变成了训练数据。通过将过去的事后分析反馈给 Gemini,我们创建了一个可以自我完善的良性循环:今天的调查输出会成为明天的解决方案输入。
借助Gemini CLI、MCP 服务器将 Gemini 连接至 Grafana、Prometheus 和 PagerDuty 等工具,并结合自定义斜杠命令(定义可复用提示以简化与 Gemini CLI 的交互),可以构建出类似的工作流。
原文链接:
https://www.infoq.com/news/2026/02/google-sre-gemini-cli-outage/





