硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

微软亚洲研究院眼里的 AIOps 是什么样的?

  • 2022-01-21
  • 本文字数:2430 字

    阅读完需:约 8 分钟

微软亚洲研究院眼里的 AIOps 是什么样的?

目前,微软云在世界五大洲的上千个数据中心里,部署了上千万台物理服务器,运行着上百万用户的应用和服务,其中包括 95%以上的《财富》500 强企业。微软云每年甚至每个月都要使用新的硬件,每天甚至每分钟都有新的软件更新部署到云上。

 

对于像微软云这样的规模庞大、高度复杂并承载大量客户应用的云计算系统,很难运用传统非智能的软件开发和运维技术进行高效开发、部署、运营和管理,解决这一问题的关键就是 AIOps。

 

什么是 AIOps

 

AIOps 一词由Gartner在 2017 年创造,其给出的定义是:

 

AIOps 平台利用大数据、现代机器学习和其他高级分析技术,通过主动、个性化和动态的洞察力直接和间接地增强 IT 运营(监控、自动化和服务台)能力。AIOps 平台支持同时使用多个数据源、数据收集方法、分析(实时和深度)技术和表示技术。

 

微软亚洲研究院对 AIOps 的研究来自于对软件领域的科研探索。2008 年左右,微软亚洲研究院成立了 Software Analytics Group(软件分析组),希望从数据驱动角度研究软件领域。在软件场景下最重要的问题有三个:运行系统问题、用户体验的问题和开发效率的问题。随着云计算成为运行软件的主要形式,其软件分析的焦点也集中到了云计算系统,并逐渐延伸出了云智能/AIOps 。

 

“AIOps 是一个交叉领域,涵盖了 AI、系统和工程知识,通过创新 AI、ML(机器学习)技术,提供高效设计、构建、运营大规模复杂的云服务。”微软亚洲研究院常务副院长、微软杰出首席科学家张冬梅在 1 月 13 日微软亚洲研究院“智能运维”媒体沟通会上表示。

 


 张冬梅,微软亚洲研究院常务副院长、微软杰出首席科学家

 

AIOps 具体有哪些应用场景

 

张冬梅介绍,AIOps 主要包括服务/系统(AI for System)、工程(AI for DevOps)和客户(AI for Customer)三个方面。

 

“服务/系统”要求开发者能从运行的系统角度看问题,比如系统异常检测不只是找出出现问题的地方,最好还可以提前预警。

 

以硬盘故障预测为例,开发者可以通过分析已经发生改变的数据或状态,来预测出该磁盘是否有故障。这是机器学习领域的问题,系统在学习了大量硬盘的历史数据后,对照目前磁盘的状态,预测将来是否可以及时采取措施。此外,除了发生故障的硬盘,还需要考虑其邻近的磁盘情况。

 

“通常在机器学习里面不均衡的问题可能是 1:20、1:50 或 1:100,但在实际环境中的硬盘里是一比好几万。”微软亚洲研究院首席研究员林庆维说道。为此,微软亚洲研究院研发了邻域-时间注意力模型(NTAM)。该模型包含了邻域感知组件、时间组件、决策组件,在时间和空间上都能够捕捉更多的信息。林庆维表示,通过与过去 10 年、20 年最前沿的期刊或者会议上的论文方法对比,该模型从精确度和召回率方面都有很好的效果,预测能力很强。

 


 林庆维,微软亚洲研究院首席研究员

 

“工程”项主要针对的是开发和运维人员的生产效率。比如出现问题时,快速恢复正常并不等于解决问题,真正问题的解决需要大量的检测、诊断工作,如何更快、更高效地完成这些工作就是一个问题。


部署通常从非常小的规模开始,然后逐步扩大规模,在确认每一步都安全后才能部署到云平台。整个部署过程中需要检测所有的健康信号,包括各种资质、传感器信号、状态等等。当任何一方面的问题出现时,开发人员首先会查看是不是某个部署问题导致的,同时根据部署做关联性排查。如果是部署方面出现的问题,那么该部署就会被立即停掉,然后回归到安全的系统中。

 

针对“开发/运维”方面的安全部署诊断问题,微软亚洲研究院提出了主动迁移学习异常检测(ATAD)方案。该方案通过迁移学习把从别的数据上学到的知识转化为目标领域,同时通过主动学习让工程师给出优先项,最后得到更好的学习效果。目前该方案已经直接用到了微软云平台中。不过,这个方案通常很难获得高质量的标签数据,所以需要工程师有非常强的见解才能作出判别。

 

最后,云平台系统主要是为客户提供服务,因此用户体验非常重要。

 

林庆维以智能虚拟机预配置为例子,介绍了微软亚洲研究院在这个方面所做的部分研究工作。云平台申请虚拟机需要时间,解决这个问题的方案之一便是预先装好软件和系统的配置,当用户有需求时可以直接用。但虚拟机池的容量有限,每种类似的机型不可能配置很多。那么,预测用户会配置什么类型的虚拟机可达到最优配置就是很好的解决方式。为此,微软亚洲研究院提出了一个预测和优化框架,对比此前 10 年、20 年在顶级期刊、会议上的算法,该框架的性能都达到最优。

 

尚处发展阶段

 

AIOps 是一个必然趋势。目前,微软亚洲研究院的 AIOps 研究成果已经应用到了微软 Azure、Skype、OneDrive、Office 365 等诸多在线服务中。

 

微软云计算与人工智能事业部首席数据科学家党映农介绍到,在与微软亚洲研究院的合作过程中,微软云已经在智能运维方面积累了很多重要的技术创新,包括云服务系统的智能化和管理的自动化、云开发和部署的智能化以及智能化客户响应等。另一方面,人工智能和机器学习技术也已经深度集成到了微软云的基础设施的管理软件站,包括智能监控、智能预测、智能修复等。

 

虽然 AIOps 十分重要,但目前仍只是处于发展阶段,距离自动化、自主化、通用化的实现还有很大的距离,大规模落地也需要一段时间。由于云平台非常复杂、规模又十分庞大,AIOps 的发展主要面临着以下挑战:

 

  • 检测方面,面临着差异化需求、噪音数据、缺乏标注数据等挑战。

  • 诊断方面,面临着服务依赖复杂、知识分散等问题。

  • 预测方面,面临着系统演进速度快、各类别间高度不平衡等问题。

  • 优化方面,面临着数据规模庞大、线束条件和权衡取舍复杂等问题。

 

林庆维介绍,微软亚洲研究院未来的 AIOps 研究方向将主要包括三个方面。首先是更加自动化、自主化。目前 AIOps 更多是给用户提供一定的建议和推荐,但是未来的 AIOps 希望能够自动地帮助用户作出最优决策,而不需要人工干预。其次是更加主动化。本质上讲就是防患于未然,不能等到问题出现了才想起来解决问题,应该将问题扼杀在萌芽状态。最后是更加通用化。以后跨平台的 AIOps 应用不仅是服务云平台,而是服务所有平台。

2022-01-21 19:156647

评论

发布
暂无评论
发现更多内容

Android开发:获取安卓App版本号的方法步骤

三掌柜

8月日更

Django 做个小后台,细节在完善一点点,滚雪球学 Python 第三阶段

梦想橡皮擦

8月日更

netty系列之:自动重连

程序那些事

Java Netty 程序那些事 响应式系统

【前端 · 面试 】HTTP 总结(十一)—— HTTPS 概述

编程三昧

面试 https 8月日更

MinIO Client 使用(一)

耳东@Erdong

Minio 8月日更 mc minio client

【设计模式】代理模式

Andy阿辉

C# 后端 设计模式 8月日更

失败的小项目-外卖cps

箭上有毒

8月日更

端口占用解决方案

一个大红包

8月日更

异步编程的终极解决方案 async/await:用同步的方式去写异步代码

前端依依

大前端 js 经验分享 异步 知识讲解

Web 框架 Gin | Gin 介绍

xcbeyond

Go 语言 gin 8月日更

融云CTO杨攀:把握核心技术,促进产学研用融合发展

融云 RongCloud

oeasy教您玩转vim - 14 - # 行头行尾

o

Rust从0到1-模式-相关语法

rust 语法 模式 Patterns Syntax

LeetCode题解:781. 森林中的兔子,贪心,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

数据缓存历险记(五)--LRU缓存算法的最终篇

卢卡多多

缓存 LRU Redis 协议 8月日更

JavaScript Array 方法详解

程序员海军

JavaScript 方法 大前端 array 引航计划

【Flutter 专题】70 图解自定义 ACEStepper 步进器

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 8月日更

全球增长最快的对象存储开源系统MinIO

liuzhen007

8月日更

如果面试官问你 JVM,额外回答逃逸分析技术会让你加分!

陈皮的JavaLib

Java 面试 JVM 逃逸分析 8月日更

在线年龄计算器

入门小站

工具

MySQL知识点整理

一个大红包

8月日更

Ipfs靠谱吗?ipfs中国授权公司都有哪些?

分布式存储 区块链+ IPFS fil

Android开发:引入重复包报错Error:Execution failed for task ‘:app:transform...’解决方法

三掌柜

8月日更 8月

Linux之netstat命令

入门小站

Linux

Go语言那些事儿之管道的关闭

Regan Yue

Go 语言 8月日更 管道

【LeetCode】从上到下打印二叉树Java题解

Albert

算法 LeetCode 8月日更

从安卓转到Java开发,我吃透了这份pdf,终于4面拿下美团offer

Java~~~

Java spring 面试 微服务 JVM

写作 7 堂课——【6. 清单式写作】

LeifChen

清单 写作技巧 8月日更 检查清单

命令行操作Java程序的那些事~

Bob

Java 命令行 8月日更

仿imtoken钱包源码,TP钱包源码开发

一文带你了解 TreeMap ,LinkedHashMap 的主要特点

4ye

Java 后端 hashmap LinkedHashMap 8月日更

微软亚洲研究院眼里的 AIOps 是什么样的?_AI&大模型_褚杏娟_InfoQ精选文章