【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

强化企业 IT 运维的五大 AIOps 策略

  • 2021-09-03
  • 本文字数:3166 字

    阅读完需:约 10 分钟

强化企业IT运维的五大AIOps策略

在现代化的企业中工作,我们希望 AIOps(中文资料中也称为“智能运维”——译者注)能强化 IT 运维,使企业在提高性能的同时降低成本、预防 IT 事故并提高业务的敏捷性。但在市场上存在着多种差异化的 AIOps 产品,我们如何能确保所选路线的正确性?一旦决定采用 AIOps,应如何最大化地发挥其作用?

 

正如题目所示,本文将给出五种策略,可确保企业能够针对自身业务制定正确的 AIOps 规划。我们先用一定的篇幅给出“AIOps”这一术语的确切定义。

 

“AIOps”是 Gartner 于 2016 年创立的术语,指结合大数据、人工智能和机器学习实现 IT 运维流程的自动化和提升。当时,这个非常宽泛的定义在一定程度上引发了理解上的混淆,各 IT 供应商基于自身实际提供的产品,对 AIOps 给出了各自的阐释。

 

时至今日,业界领先供应商的产品已确定 AIOps 的落地现状,这些产品响应了各家客户正面对的挑战。AIOps 当前已更深入人心,定义也更明确,应用和趋势也更实际。

 

AIOps 平台涵盖了基础设施和运维 (I&O)、DevOps、SRE、服务管理等领域,大范围地强化了 IT 实践和功能。其中,I&O 是最能体现 AIOps 优点的领域,涉及异常检测、故障诊断、事件关联和根本致因分析 (RCA,root cause analysis) 等,切实全面地改进了监控、服务管理和自动化任务。

 

在阐释了 AIOps 定义后,下面言归正传,列出前面提及的五种策略。

脚踏实地,不要好高骛远

提出一个宏伟的愿景,通常情况下是件好事。一旦树立了一个远大的目标,即便没能达成,也会走得更远。但在实施 AIOps 解决方案时,如果行事目标过于笼统,可能会导致项目延期数月甚至数年。

 

公司的高管可能会自上而下地颁布命令,在整个组织中推进和实施人工智能和机器学习,但并没有明确定义需解决哪些具体需求。事实上,在细化落实 AIOps 能力的构建中,好的做法是确定可逐步实现的各个短期目标,而不是只给出一个长线的愿景目标。

 

例如,在“报警-工单”流程引入 AIOps 平台时,落地过程中最好采用渐进的方式。即在保持现有的“报警-工单”工作流基础设施运作的同时,逐步实施各个新的 AIOps 功能。基于此,我们可以先将部分监控报警输入到 AIOps 事件关联平台,并将输出返回给工单处理系统。这样提供了一个能在实际投入生产之前对结果进行对比的基线。一旦用户感到满意,我们可将更多的工具逐步地添加到 AIOps 平台中,直到实现监控层和可观察层的完全集成。此后,我们才能着手去考虑如何额外添加新的 AIOps 功能,例如根本致因变更、修复的自动化等。

 

逐步推进的方法不仅保证了在完全依赖 AIOps 平台前确证其切实可用,而且可以让团队有机会在此过程中同步积累所需的各项技能,不必一步到位去掌握全部。一步到位可能会操之过急,甚至适得其反。

选择领域为中心,还是选择领域无关?

在 Gartner 最新的 AIOps 市场指南中(“Gartner Market Guide for AIOps”,2021 年 4 月 6 日,作者 Pankaj Prasad,Padraig Byrne 和 Josh Chessman),给出了两类 AIOps 解决方案,即“领域为中心”和“领域无关”。领域为中心的 AIOps 功能,是基于网络、应用、基础设施或云监控等特定领域(实践)的数据。相比之下,优秀的领域无关 AIOps 解决方案能跨多个领域工作,组合并管理抽取自多来源和多供应商 IT 技术的数据,以及体现环境变更情况的数据,从中获得洞察力。

 

在近期的一次 AIOps 视频会议中提出,好的策略是将领域为中心的 AIOps 功能内置于监控工具中,服务于一次性的特定用例;同时持续规划部署能兼顾多种用例的、领域无关的独立解决方案。例如,对于光学设施中的信号质量监控,使用领域为中心的 AIOps 工具可了解连接的丢失情况。但负责维护运行在光学设施上的高质量视频通话时,则应选择领域无关的 AIOps 工具。因为服务水平(SLA)的下降存在多种可能致因,涉及构成服务的多个领域和多种技术,了解根本致因需要关联所有可能。

 

需注意的是,Gartner 同时也指出:“随着组织在 AIOps 采用上逐渐成熟,他们需要的是一个能跨 I&O、DevOps、SRE 甚至在某些情况下包括安全实践的统一的、领域无关的平台”。

借力数据富集(Enrichment),驱动智能运维

数据富集(Enrichment)是实现事件关联全过程的幕后英雄。第一手的报警数据只是出发点,并不足以确定问题的根本致因,进而可着手执行有效修复。收到来自多个领域的报警,是很难将它们相互关联,形成一组精细粒度的工单的。如果使用时间戳或故障原点(point of origin)的话,它们提供的洞察信息非常有限,并且无法关联其它来源或时间窗的相关报警。

 

易于部署的数据富集告警,实现了对单个报警的增值,为确定报警的相互关联和关联方式提供了额外的理解层级,让用户专注于高层级的关联事件,避免纠结于每个进入 AIOps 平台的低层报警。好的数据富集过程会减低“数据噪音”,有助于向用户的 CMDB、APM 和编排工具中增添拓扑信息,在变更管理和 CI/CD 流水线中增添变更信息,以及将业务场景引入团队的知识和过程。

 

选择提供内置的、可扩展的数据富集功能的 AIOps 工具,将推动运维全过程的智能化。

过程自动化

自动化具有许多优点,包括一致性、节省时间和最大限度地减少错误。一旦工单系统实现 AIOps 自动化,平均确认时间 (MTTA,Mean Time to Acknowledge) 可降低到毫秒级!

 

将运行手册(Runbook)纳入工单系统,意味着一旦出现特定的报警,就会触发特定的工作流。运行手册会自动执行所有不需要做额外考虑的技术步骤,例如检查网络资源状态、获取服务器或系统的信息等。将这些步骤全部置入工单,尽可能在无需人工参与的情况下完成识别和实施的必要修复。

 

过程自动化不仅减低了 IT 运维团队的工作负担,加快了事故和宕机的解决速度,而且能解放运维团队,去聚焦于高价值、有挑战性的工作,在驱动业务创新的同时改进生产率。

驱动持续洞察

实施 AIOps 解决方案的最大价值,并不仅仅是为分析和改进性能问题提供专属方案。AIOps 支持用户去分析各个阶段,从事件检测到开展调查和 RCA,了解各阶段所需的时间,形成补救措施和解决方案,在过程中持续推动流程的改进。

 

设置 KPI 可实现进度跟踪,确定导致延迟和性能问题的致因,进而给出满足过程效率改进需求中应关注的方面,确定可提供价值最大化的下一步过程,进一步提高团队的生产力。例如,识别并跟踪受 IT 故障影响最大的应用或业务的持续变化情况,可提供对运维热点的鸟瞰视图。进一步跟踪最频繁检查、最频繁报警类别及其 MTBF(平均故障间隔时间),有助于定位确切的问题位置。跟踪和测量一定时间内的事件是否属于 L1、L2、L3 或是企业特定的运维层级,可以确定并改进运维整体的效率。持续跟踪 MTTA(平均确认时间)、MTTD(平均检测时间)和 MTTR(平均解决时间)等 KPI,有助于分析和改进事件管理生命周期中的各个阶段。

 

谨记,无论采用何种策略,IT 运维团队都是企业运维过程中的关键合作者。与团队保持密切的沟通,确保 AIOps 解决方案能降低团队的工作量,而不是带来更多的工作内容。企业可能已经发现了需更新或调整的关联模式,团队也可能已经从进一步的数据富集中受益。无论如何,企业用户都需要与运维团队共进退,找出并解决痛点,确定运行良好之处。确保团队意识到自身的作用,最大化地发挥团队的作用。

 

AIOps 正迅速发展,如何确保选择正确的路线,如何确保能从市场众多可用的 AIOps 平台中做出一个明智的选择,这是非常具有挑战性的抉择。确定 AIOps 对企业未来发展的意义,采用上述五种策略,实施 AIOps 平台就能带来非常卓越的收益和效率,帮助企业真正地改进运维。

作者简介

Yoram Pollack 是 BigPanda 公司的市场产品部门负责人,主要关注 IT 运维和安全中的新兴技术,尤其是 AIOps。具体涉及:探索如何在 IT 运维中实现机器学习和人工智能以降低 IT 噪声,检测并探究可能的根本致因,人工 IT 故障管理的自动化。Yoram 具有工程领域背景,并经过 20 多年的表述能力训练。他目前的工作职责是助力企业理解技术如何满足自身需求并实现业务增长。

 

原文链接: AIOps Strategies for Augmenting Your IT Operations

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-09-03 17:565300

评论 1 条评论

发布
用户头像
IT运维技巧多多,这里告诉您降低企业IT运维成本就用行云管家云管平台!https://www.cloudbility.com/club/12325.html
2021-09-08 17:14
回复
没有更多了
发现更多内容

云小课 | 玩转HiLens Studio之快速订购HiLens Studio版本

华为云开发者联盟

AI modelarts 华为HiLens HiLens Studio EI智能体

今天,「浪潮云说」直播间开讲啦!

浪潮云

智慧社区平台解决方案,平安小区建设解决方案

Nginx的进程管理与重载原理

Linux服务器开发

nginx 后端 中间件 Linux服务器开发 进程管理

花168大洋买来的【阿里P8Java成长笔记】,看完才知道我就是菜鸡

Java架构师迁哥

智慧迪拜与不可或缺的区块链技术

CECBC

如何使用 Distroless 让你的容器更加安全

K8sCat

flask Docker Kubernetes Google Distroless

Linux运维职业困惑?给你史上最全互联网Linux工作规划!

学神来啦

架构之:微服务架构漫谈

程序那些事

架构 微服务 程序那些事

带你认识4种设计模式:代理模式、装饰模式、外观模式和享元模式

华为云开发者联盟

设计模式 外观模式 代理模式 装饰模式 享元模式

字节跳动异构场景下的高可用建设实践

火山引擎开发者社区

架构 后端

阿里P10热荐,面试前必看!Java高并发编程五套“完美日记”GitHub已经标星78K

Java架构追梦

Java 阿里巴巴 架构 面试 并发编程

万物互联时代,如何玩转鸿蒙系统的用户体验?

博睿数据

鸿蒙 用户体验 博睿数据

深度解读畅捷通云原生架构转型实战历程

阿里巴巴云原生

云原生

我去,这是出BUG了呀!

why技术

Java dubbo 后端

数字货币将给我们的生活带来什么?

CECBC

译文 | 新手PM指南:你应该避开的六大常见错误

LigaAI

产品 产品经理 产品设计

查漏补缺!复盘B站面试坑我最深的Java并发:JDK源码剖析

Java 编程 程序员 架构 面试

权限与认证:HTTP状态码返回

程序员架构进阶

Java HTTP 28天写作 6月日更

全网72万浏览量!阿里重磅开放 “SpringCloudAlibaba学习笔记”(附下载)!

Java 编程 架构 面试 微服务

java特点了解及JDK初谈(程序员必看!)

Java 程序员 面试

昆明智慧安防小区建设方案,平安社区建设

备战金九银十:4000道Java面试真题合集,助你搞定面试官

☕️【Java技术之旅】【ConcurrentHashMap】深入浅出核心源码分析(JDK1.7版本)

洛神灬殇

Java 源码分析 ConcurrentHashMap 6月日更

我的企业安全观

I

安全架构 企业安全 组织架构 安全运营 安全协作

直播连麦技术闭坑篇

anyRTC开发者

音视频 WebRTC 视频直播 视频通讯 视频连麦

图解 Redis丨这就是 RDB 快照,能记录实际数据的

华为云开发者联盟

redis 数据 日志 aof RDB 快照

记一次MySQL磁盘满了之后清理的过程

北游学Java

Java MySQL

未来,让我们一起想象 — “Imagine” 阿里云视频云全景创新峰会

阿里云视频云

阿里云 计算机视觉 音视频 视频 英特尔

阿里专家把SpringBoot:入门+基础+进阶+项目全部整理出来了

Java 编程 架构 面试 微服务

【案例】消除隐患,基于电力大数据的群租房智能分析

星环科技

强化企业IT运维的五大AIOps策略_软件工程_Yoram Pollack_InfoQ精选文章