写点什么

亚马逊云科技推出“DevOps Agent”,以实现事件响应自动化并提高系统可靠性

作者:Craig Risi

  • 2025-12-23
    北京
  • 本文字数:1437 字

    阅读完需:约 5 分钟

大小:715.86K时长:04:04
亚马逊云科技推出“DevOps Agent”,以实现事件响应自动化并提高系统可靠性

亚马逊云科技(AWS)最近宣布了 AWS DevOps Agent 的公开预览版,这是一种新的“前沿智能体”,旨在帮助组织更快地应对生产故障,识别根本原因,并主动加强系统可靠性。该服务被定位为一个自治的、随时待命的值班工程师,它与现有的可观测性、部署和工单工具集成,以自动化许多传统上由 DevOps 团队手动完成的任务。

 

AWS DevOps Agent通过构建应用程序资源及其关系的拓扑图,然后关联来自日志和指标的遥测数据(通过 Amazon CloudWatch、Datadog、New Relic、Splunk 等工具),部署历史记录(GitHub、GitLab CI/CD)和基础设施配置数据。当触发报警时,例如 CloudWatch 报警或 ServiceNow 或 PagerDuty 系统中的工单,智能体可以自动启动调查。它分析日志、追踪和代码更改,揭示可能的根本原因,并推荐缓解步骤或修复措施。

 

除了实时故障分类外,DevOps Agent 还支持长期可靠性工作。它回顾过去的故障模式,以建议在可观测性、基础设施架构、容量规划和部署实践方面的改进。换句话说,智能体不仅帮助恢复服务;它还通过指出架构弱点或监控和配置中的空白,帮助避免未来的中断。

 

AWS 提供免费的 DevOps Agent(每月智能体任务时间有一些限制)预览版,目前可在美东(弗吉尼亚北部)地区使用。对于已经在使用一系列监控、日志记录和部署工具的团队来说,这个承诺很有吸引力:一个统一的界面,减少了手动调查的开销,加快了平均解决时间(MTTR),并有助于在复杂系统之间强制执行一致性。

 

然而,此次发布也有一些警告。由于该工具与可观测性数据、部署历史记录以及可能敏感的日志深度集成,团队必须仔细管理权限;客户仍然负责保护数据源并确保隐私合规。而且,像任何预览版本一样,生产级别的稳定性、合规认证(例如 SOC 2、ISO 27001)以及在现实世界规模下的长期性能仍有待验证。

 

目前有几家组织正在 DevOps Agent 领域发挥作用,并以令人兴奋的方式利用 AI 来简化工程团队的工作。

 

一个相对较新的进入者(成立于 2024 年底),为 SRE 和 DevOps 构建“AI 队友”,是Ciroos AI SRE Teammate。他们的平台声称使用代理式 AI 帮助减少工作量并自动化故障管理——集成跨云的监控、告警和部署工具。

 

Rootly 是一个故障管理/响应平台,可以自动化处理从检测到事后分析的故障生命周期,并旨在减少手动协调。它不承诺完全自主的修复,但专注于简化围绕告警、通信和解决工作流程的流程化过程。

 

BigPanda还提供了其 Autopilot AIOps 风格的平台,以其事件关联、噪声降低和拓扑感知故障优先级而闻名。BigPanda 试图理解服务依赖关系和业务影响——这是向更具上下文的故障处理迈出的一步,而不仅仅是处理原始告警泛滥。

 

这些都是Datadog(特别是他们的“Bits AI”功能集)、DynatraceNew Relic这样的大型平台之外的选项,它们都提供了异常检测、告警,有时还提供根本原因或分类协助。这些都是更通用的监控平台,但随着 AI 驱动功能的增长,它们越来越多地与“DevOps 智能体”的目标重叠。

 

可以看出,从初创公司到老牌玩家,许多供应商都在竞相提供“DevOps 智能体”能力。AWS 以一个重要的结构优势进入这个新兴领域:深入、本地集成到云控制平面本身。大多数工具依赖第三方遥测、API 和事后分析,而 AWS 可以在故障起源的服务内直接操作,为其提供更丰富的上下文、更快的信号访问和更大的安全、实时补救潜力。然而,这只对那些完全在 AWS 生态系统中运营的组织有用。拥有更多混合或多云设置的公司不太可能看到这种好处,因此该领域仍然对所有参与者开放,以增加价值。

 

原文链接:

https://www.infoq.com/news/2025/12/aws-devops-agents/

2025-12-23 14:331

评论

发布
暂无评论

来自前端面试官的吐槽:问CSS、DOM,还招不招人?KPI还要不要?

程序员改bug

编程 程序员 前端 前端面试 前端工程师

海外云手机-如何高效运营多个海外社媒账户?

Ogcloud

社交媒体 社媒

软件测试/测试开发丨持续交付与 DevOps 体系

测试人

软件测试 测试开发

云手机解决Tik Tok运营难题

Ogcloud

短视频 跨境电子商务 短视频直播 TikTok 电子商务

边缘计算的深入学习之路

Geek-yan

隧道LED照明技术见证大国交通发展,三思陶瓷散热技术强势突围

电子信息发烧客

PON网络是什么?

小齐写代码

KubeWharf:构建下一代分布式操作系统的云原生力量

不会算法。

技术创新,照见未来 | 2023开放原子开发者大会OpenHarmony分论坛圆满举行

开放原子开源基金会

开源

上海三思立体育苗系统Vertical X打造“不见光”人工农场

电子信息发烧客

中国自动驾驶行业:迈向无限可能

不在线第一只蜗牛

人工智能 自动驾驶 智能汽车

事务的实现方法:事务注解和编程式事务

xfgg

Java

直播预告 | 大模型时代,“应用变了”:政务办公,如何从大模型中巧借力?

京东科技开发者

直播 办公 政务 大模型

云技术分享 | EC2 之 Windows 忘记密码(二)

亚马逊云科技 (Amazon Web Services)

大数据 Amazon EC2 ebs

Inscribe:应用非定向资产交易协议 布局巨大铭文赛道

鳄鱼视界

5 分钟内搭建一个免费问答机器人:Milvus + LangChain

Zilliz

Milvus 向量数据库 langchain rag

鸿蒙、ChatGPT 入选全球十大工程成就丨 RTE 开发者日报 Vol.111

RTE开发者社区

Databend 开源社区上榜 2023 年度 OSCHINA 优秀开源技术团队

Databend

《用“开源”的方式讲开源的法律,有问必答,一问到底》——开源合规分论坛为你答疑解惑

开放原子开源基金会

开源

Typora+PicGo 搭建免费图床

吳先森321

经验分享

大模型 “下沉时刻”,容联云完成“三级跳”

脑极体

AI

WhatsApp封号的原因以及如何避免?试试海外云手机!

Ogcloud

云计算 外贸管理 whatsapp

亚马逊云科技推出“DevOps Agent”,以实现事件响应自动化并提高系统可靠性_亚马逊云科技_InfoQ精选文章