写点什么

亚马逊云科技宣布 DevOps Agent 正式可用,可自动化开展事件排查

  • 2026-04-22
    北京
  • 本文字数:1374 字

    阅读完需:约 5 分钟

亚马逊云科技宣布 DevOps Agent 正式可用,这是一款由生成式 AI 驱动的智能助手,旨在帮助开发者和运维人员排查问题、分析部署,并在 AWS 环境中自动化执行运维任务。

该服务在 2025 年的 re:Invent 大会上预览发布,基于 Amazon Bedrock AgentCore 构建。DevOps Agent 通过学习应用关联关系并集成可观测性工具、运行手册、代码仓库和 CI/CD 管道来分析事件。该智能体可将遥测数据、代码和部署数据关联起来,自主完成问题分类与排查,加快故障解决,并从历史事件中识别规律、给出优化建议,助力防范后续故障。AWS 高级解决方案架构师 Madhu Balaji 在宣布正式可用时表示

SRE 在凌晨 2 点收到告警时往往需要手动整合多个来源的遥测数据,梳理跨服务依赖关系并进行问题假设,这一过程通常耗时数小时。随着系统复杂度的增加,对 AI 驱动的运维队友——SRE 智能体的需求变得日益迫切。

正式可用版本的主要改进包括:支持对 Azure 及本地环境中的应用进行排查、支持通过自定义智能体 Skill 扩展能力,同时新增自定义图表与报告功能。Balaji 补充道:

DevOps Agent 并非一个被动的问答工具,而是一个能自主行动的运维助手。当事件通过 CloudWatch 告警、PagerDuty 警报、Dynatrace 问题、ServiceNow 工单或通过 WebHook 配置的其他任意事件源触发时,该智能体无需人工干预即可立即启动排查工作。

在另一篇文章中,Janardhan Molumuri、Bill Fine、Joe Alioto 和 Tipu Qureshi 以一个无服务器 URL 短链应用为例,解释了如何利用智能体式 AI 通过 DevOps Agent 实现自主事件响应。他们写道:

借助 MCP 的可扩展性以及与 CloudWatch、Datadog、Dynatrace、New Relic、Splunk、Grafana、GitHub、GitLab 和 Azure DevOps 的内置集成,智能体可以从团队运维数据所在的任意位置获取监测信号。

来源:AWS 博客

亚马逊云科技表示,DevOps 团队通常会借助接入日志与监控系统的 AI 编码工具开展事件排查,但这类工具缺乏在大规模复杂生产环境中管理所需上下文信息和运维管控能力。Agentic Hamburg 联合创始人 Sebastian Korfmann 写道

早期数据表现亮眼:预览阶段的平均故障恢复时间(MTTR)最高降低 75%,根因分析准确率达到 94%,可与 Datadog、Grafana、Splunk、PagerDuty、ServiceNow 等平台集成。

The Duckbill Group 首席云经济学家 Corey Quinn 评论道

你花钱让 AI 去做凌晨两点值班工程师的活儿,只不过它事后不会在 Slack 上阴阳怪气地 @ 整个团队。平均故障恢复时间从小时级压缩到分钟级,而账单则从按分钟计费变成了按小时计费。

Reddit 上的一个热门讨论帖中,不少开发者对其缺乏问责机制提出了质疑,用户 The_Flexing_Dude 问道:

这和上个月搞崩生产环境的是同一个吗?

随着该服务正式可用,不再提供免费使用,定价基于代理执行运维任务的累计时长,按秒计费。AWS Support 客户可根据上月支持服务支出,获得每月对应的 DevOps Agent 使用额度,可使用额度的百分比随支持级别而定。目前该服务已在六个区域上线,包括弗吉尼亚北部、爱尔兰和法兰克福。

在另一项公告中,亚马逊云科技宣布 Security Agent 按需渗透测试功能正式可用。这款 AI 驱动的智能体可持续分析应用设计、代码和运行时行为,自动执行按需渗透测试并识别可被利用的安全漏洞。

【声明:本文由 InfoQ 翻译,未经许可禁止转载。】

查看英文原文:https://www.infoq.com/news/2026/04/aws-devops-agent-ga/