米其林(Michelin)中国运维集团写了一篇关于他们如何实施AIOps平台的文章。文章详细描述了在最终与全球 IT 治理对齐的过程中克服的失误和组织阻力,并解释了企业如何能够超越供应商的推销,实现实际部署。
米其林中国 IT 运维团队的架构师Matthew Liu描述了他们的实施是如何从个人信念开始的,而不是从执行官命令开始的。监控、遥测、事件管理和成熟的云托管已经到位;然而,尽管进行了流程优化,事件量和手动检查的数量仍在增加。这种差异意味着变革的动力是直接了当的——时机就是“现在”。
他们的方法使用了Dify,这是一个用于构建 AI 应用程序的低代码平台,部署在阿里云上,并使用 Anthropic 的模型上下文协议与其他工具集成。
在寻求正式批准之前,Liu 先进行了工作演示。他构建的一个聊天机器人帮助数据库管理员进行健康检查和慢查询分析。另一个帮助 Kubernetes 管理员处理日常任务。这些原型使用 MCP 服务器直接从 Dify 代理内部查询 ServiceNow 工单。Liu 继续解释说,这显著加快了开发速度,使团队能够在短短几个小时内将 ServiceNow 连接到 Dify 并创建工作 AIOps 原型。

早期演示引起了人们的兴趣,但也暴露了更深层次的组织挑战。当 Liu 试图量化预期收益并找到使用 AI 改进的关键绩效指标时,他遇到了一些阻力。团队不愿意提供数字,因为他们担心减少努力会导致人员减少,而且管理层会在解决方案成熟之前提高平均解决时间(MTTR)的目标。
由于没有量化的目标,Liu 将 Dify 重新定位为一个低代码探索平台,运维团队可以自己构建工作流程,因为 Dify 不需要专业的应用开发技能,运维团队可以将他们的经验构建到提示和工作流程中。从公司的角度来看,这将建立 AIOps 素养,同时使知识更明确和更可重用。
IT 管理层认为工具探索没有解决实际的运维问题,但批准了 Liu 的模块化架构。这将三个可替换的层分开:Dify 应用构建器、LLM 推理层和基于 MCP 的工具连接到 ServiceNow、GitHub 和阿里云资源。该平台部署在经过验证的阿里云着陆区内,重用现有的安全组件。
该团队预先定义了数据类别,确认核心商业机密不会被发送到平台。管理层要求 Liu 与中国 IT 运维负责人合作,明确价值,然后给予正式批准。团队在两个旗舰用例上工作。在外部,他们与一个在合同续签期间执行手动定期检查的供应商合作,目标是使用 AI 自动化这些检查。在内部,他们开发了一个数据库管理员聊天机器人,DBA 团队在看到它的实际应用后表示有兴趣采用它。
行业分析师强调,成功的 AIOps 实施需要的不仅仅是技术能力。在 CIO 的一篇文章中,Forrester Research 的 Will McKeon-White 指出,最成功的AIOps实施都具有跨部门的用例;组织需要来自 IT 之外的业务领域的输入。
技能方面的挑战仍然很大。Elastic 的 Gagan Singh 指出,AIOps可能需要机器学习和数据分析等专业技能,而这些技能在市场上可能并不容易获得。采用简化信号摄取和模型训练的工具,无需专门的数据科学团队,有助于组织更快地通过 AIOps 提供价值。
尽管存在安全方面的担忧,但MCP的采用正在加速。MCP 服务器的下载量从 2024 年 11 月的 10 万左右增长到 2025 年 4 月的 800 多万,现在有超过 5800 台 MCP 服务器可用。Block、Bloomberg 和 Amazon 的大规模部署表明,企业正在采用 MCP;然而,安全研究人员也发现了多个突出的问题,包括提示注入,工具权限可以在组合时泄漏文件,以及类似的工具可以默默地替换受信任的工具。
Mirantis 的 Randy Bias 认为,MCP需要变得安全、可治理和可观测,以便在企业规模上使用智能体进行关键任务用例和访问敏感数据源。安全和合规团队不能允许任意的、未经审查的智能体访问关键数据系统,如电子医疗记录、财务数据和客户个人身份信息。如果不解决这些问题,企业可能会看到影子智能体的兴起,类似于早期云计算时代出现的阴影 IT。
米其林的案例表明,AIOps 的成功实施更多是通过与治理相一致的渐进式学习,而不是通过宏伟的愿景。在CIO文章中,AArete 的 John Carey 强调,组织通常时间紧迫且资源有限,因此 AIOps 需要彻底且有计划。在没有明确定义挑战的情况下推出技术,可能会冒着投资于无法提供预期价值的解决方案的风险。同样在 CIO 文章中,Axiom Consulting Partners 的 Donncha Carroll 建议公司花时间详细说明他们将要解决的问题的性质以及它将如何影响业务。确认更传统的解决方案不适用或无效,可以避免投资于无法实现既定愿景的实施。根据企业管理学院的一项调查,80%的公司正在寻找新的 AIOps 平台,一半计划在未来一年内更换,这表明即使是满意的用户也认识到当前产品有改进的空间。
Liu 的回顾总结证实,该计划已经启用了一个与 MCP 对齐的 AIOps 平台,该平台现在在阿里云上运行。平台已经通过了安全和治理的障碍,团队已经开始与运维团队和供应商就旗舰用例进行了具体工作。在生产中实现 AIOps 的路径需要与他们的全球 IT 战略保持同步,同时还要解决当地的运维问题。
我们想要安全且低成本地测试 AIOps 是否能在一两个具体领域减轻痛苦。成功是:我们学到了什么可行,什么不可行,我们有可以重用的模式。
——米其林的 Matthew Liu
原文链接:





