10 月 23 - 25 日,QCon 上海站即将召开,9折优惠最后1天 了解详情
写点什么

研究发现大模型尚不足以在事件管理中取代 SRE 工程师

作者:Matt Saunders

  • 2025-09-30
    北京
  • 本文字数:1890 字

    阅读完需:约 6 分钟

大小:981.01K时长:05:34
研究发现大模型尚不足以在事件管理中取代SRE工程师

ClickHouse 的一项研究发现,大型语言模型尚不能取代网站可靠性工程师(SREs)来执行诸如寻找事件根因等任务。然而,人工智能技术正朝着这一目标大步前进。

 

由 Lionel Palacin 和 Al Brown 进行的这项研究用现实世界的可观测性数据测试了五个前沿模型,以确定人工智能是否能够自主识别生产问题。结果表明,尽管 LLMs 作为辅助工具显示出巨大潜力,但它们还不足以完全取代人类工程师。

 

“自主根因分析(RCA)尚未实现,”作者解释说。“使用 LLMs 更快、成本更低地发现生产问题的承诺在我们的评估中未能实现,甚至 GPT-5 也没有超越其他模型。”



研究团队测试了 Claude Sonnet 4、OpenAI GPT-o3、OpenAI GPT-4.1 和 Gemini 2.5 Pro,用到了 OpenTelemetry 演示应用中包含不同异常的四个数据集。每个模型都被提供了可观测性数据,并用一条简单的提示要求其识别根因:“你是一个可观测性 Agent,可以访问来自演示应用程序的 OpenTelemetry 数据。用户报告了使用应用程序时的问题,你能识别出是什么问题、根因,并提出可能的解决方案吗?”

 

所有模型的结果参差不齐。其中一些成功识别了一些问题,但没有一个能够在没有一些人类指导的情况下一致地找到根因。在涉及特定用户忠诚度级别的支付失败场景中,Claude Sonnet 4 和 OpenAI o3 在初始提示后成功识别了问题。然而,在处理更复杂的问题,如缓存和产品目录错误时,人工智能需要一定程度的人类干预才能得出正确答案。

 

“这反映了一个常见模式:模型倾向于锁定在一条推理路径上,并不探索其他可能性,”研究人员在描述 Claude Sonnet 4 在缓存相关问题上的表现时指出。

 

使用不同的场景也产生了性能上的变化。例如,Gemini 2.5 Pro 在识别特定产品目录问题上表现出色,但在处理缓存相关问题时却遇到了困难。它还产生了幻觉,并加倍坚持错误的信息。“然后它开始构建一个想象的(没有证据的)原因,并开始试图证明其案例,”作者在讨论 Gemini 倾向于创造无根据理论时观察到上述现象。

 

模型和场景之间的成本和效率差异巨大。Token 使用量从数千到数百万不等,使得成本预测变得很困难。调查时间从一分钟左右到 45 分钟不等,而每次调查的成本从 0.10 美元到近 6 美元不等。

 

在研究期间 OpenAI 发布了 GPT-5,研究人员测试了它在相同场景上的表现。尽管是最新的模型,GPT-5 的表现与现有模型相似,基本上与 OpenAI o3 的结果相匹配,同时使用的 token 更少。

 

测试方法存在一些局限性。他们使用的相对简单的数据集代表了一小时的遥测数据,这些数据集中注入了异常,比真实的生产问题更容易检测。团队也没有使用丰富内容或其他可能提高性能的技术来微调他们的提示。然而,研究发现 LLMs 在编写根因分析报告方面表现出色,所有模型都生成了强大的初稿。“我们发现不同模型和对不同异常类型的报告都很强大,”研究人员报告说。

 

研究人员得出结论,当前的最佳方法结合了人类专业知识和人工智能辅助,而不是完全自动化。他们建议使用 LLMs 来“总结嘈杂的日志和跟踪,起草状态更新和事后分析部分,建议遵循的调查计划,并审查调查数据和验证结果”,同时保持工程师对过程的控制。

 

Varun Biswas 在 LinkedIn 上的一篇文章认为,人工智能驱动的工具可以接管监控、分析和补救任务的很大一部分,但人类仍需参与战略决策和监督。最重复、可自动化的任务正在被委托给人工智能,而系统设计、升级和恢复仍然由人类领导。

 

另一项由 Tomasz Szandała 进行的最近研究评估了 GPT-4o、Gemini-1.5 和 Mistral-small 在进行基础设施事件的根因分析(RCA)方面的能力,使用的是混沌工程场景。这篇论文测试了 LLMs 在八个从受控电子商务环境中产生的故障场景中的表现,并将其性能与人类网站可靠性工程师进行了比较。



这份报告发现,在零样本设置中,LLMs 相当成功,报告的准确率为 44-58%,而人类 SREs 的表现明显更好,准确率为 62%。研究发现,“与人类相比,LLMs 取得了明显更低的结果”,GPT-4 的准确率为 0.52,Gemini 为 0.58,Mistral 为 0.44。然而,一些提示工程确实将性能提高到了 60-74%的准确率,尽管人类仍然做得更好,超过 80%。

 

ClickHouse 的研究显示,“即使是 GPT-5 也没有超越其他模型”,并且需要大量的人工指导,而这项研究表明通过提示工程技术可以实现可衡量的改进。Szandała 的研究表明,通过结构化提示可以实现更一致的改进,暗示“提示工程成为大型语言模型(LLMs)性能的关键因素”。

 

“那么 LLMs 现在能取代 SREs 吗?不能。它们能否在与快速可观测性堆栈搭配时缩短事件响应时间并改善文档?能,”ClickHouse 报告的作者得出结论。“前进的方向是更好的上下文和更好的工具,控制权还是在工程师这里。”

 

原文链接:

Report Finds LLMs Not Yet Ready to Replace SREs in Incident Management

2025-09-30 11:001

评论

发布
暂无评论

一键获取企业“松弛感”

白洞计划

云计算

百度智能云推出智能运维工具,云助手让云服务器运维更简单

Baidu AICLOUD

服务器运维

击败华尔街99%投资者的ChatGPT交易机器人

俞凡

人工智能 交易

外贸电商网络加速方案

Ogcloud

网络加速 企业组网 外贸独立站 海外网络加速

连续两年入选CVPR !快手KVQ,大模型加持的视频质量评价“黄金眼”

快手技术

音视频 快手 KVQ

在得物的小程序生态实践

得物技术

小程序 Vue web前端 企业号2024年6月PK榜

AR培训指导--跨越时间和空间的思想碰撞

AR玩家

培训学习 Rokid #AR Vision pro 炬目AR

基于可视化设计的低代码开发分析与应用探讨

不在线第一只蜗牛

低代码 可视化开发

和鲸101计划:赛教结合,赋能暨大经管,培养数据人才

ModelWhale

数据 经管 暨南大学

ae 2021下载安装版:After Effects 2021 for Mac/win版 激活版

你的猪会飞吗

mac软件下载 苹果软件下载

云游戏解决方案:游戏体积大导致玩家流失怎么办?

Ogcloud

云游戏 云游戏发行 云游戏平台 游戏云化

从 MySQL 到 MongoDB 再到 TDengine,这家能源企业这样应对数据挑战

TDengine

数据库 tdengine 时序数据库

利用Python语言调用腾讯混元大模型接口实战指南

幂简集成

Python API 大模型

百度网盘AI写真重磅升级!一张照片即可生成高清簪花毕业照

IT新闻资讯

百度网盘

数智化浪潮下的零售品牌商品计划革新

第七在线

什么是数字化?什么是数智化?数字化与数智化的区别

优秀

数字化 数智化

Lightroom Classic for mac/win (Lrc2021) 10.3中文直装版

你的猪会飞吗

Mac软件推荐 软件下载

和鲸101计划:课训赛结合,培养高质量医学人才直播活动圆满结束

ModelWhale

数据 医学 应用型人才

MMPsy 数据集:数业智能心大陆在多模态心理评估中的创新与应用

心大陆多智能体

人工智能 数据分析 数据集 多模态 数字心理

Apache IoTDB 走进东南大学,深入分享项目发展历程与收获

Apache IoTDB

特价最后一周

开源物联卡管理平台-设备管理

物联网 IoT eSIM安全 java 技术提升

Apache IoTDB 走进东南大学,深入分享项目发展历程与收获

Apache IoTDB

研究发现大模型尚不足以在事件管理中取代SRE工程师_AI&大模型_InfoQ精选文章