AI 和云技术将会给运维带来哪些变化?

阅读数:854 2019 年 11 月 5 日 10:22

AI和云技术将会给运维带来哪些变化?

根据 IDC 研究:2019 年全球 ICT 市场规模已经达到 5.1 万亿美元,其中数字化转型已经成为了企业的核心战略。数字化转型推动第三平台技术进入到第二篇章(第三平台技术是指以云、大数据和移动社交为核心的技术)。

AI和云技术将会给运维带来哪些变化?

IDC 中国企业级研究部助理副总裁周震刚

对企业来说,数字化转型意味着决策模式创新、运营模式创新、生产模式创新、产品服务创新和盈利模式创新。如果具体到数字化应用,IDC 中国企业级研究部助理副总裁周震刚表示:“2019 年最重要的数字化应用包括:使用微服务和容器的云平台上的敏捷应用架构;基于数据管理、认知、人工智能和机器学习的智能核心;基于云的应用程序接口策略,协调整个生态系统中的数据交换;完全支持面向客户和生态系统的业务模式的新客户体验技术。”

无论应用发展产生了哪些开发和部署的新趋势,都需要运维和监控模式去管理。20 年前的 PC 时代,应用数量可能只有成千上万个,可以用手工和人力管理,而到了移动互联网时代,应用数量暴增至上百万、上千万之后,手工管理变得不现实了,更多新的运维工具开始出现,例如,利用人工智能技术来提前规划 IT 资源、提前分析故障、预测未来趋势等等。本文就从 Dynatrace 来看看新时代的运维监控工具到底有哪些变化。

AI 如何应用在运维领域?

AI和云技术将会给运维带来哪些变化?

Dynatrace 全球销售总裁 Stephen Pace

说起 AI、云与运维的关系,Dynatrace 全球销售总裁 Stephen Pace 曾在采访中表示:“现在的应用交付主要通过云的方式来进行,特别是在这个数据爆炸的时代,面对错综复杂的数据关系,AI 正在迅速成为唯一能够为企业提供所需支持的解决方案。Dynatrace 的整个产品线以 AI 为核心,为企业提供能判断因果关系的分析,在复杂的云环境下,梳理因果关系、找到根因,迅速定位问题发生的位置,带来决策 AI 的效果。”

AI 在运维领域中有很多种不同情况的应用场景,Dynatrace 全球技术副总裁 Chuck Miller 为我们讲述了 AI 在各个阶段的应用:

AI和云技术将会给运维带来哪些变化?

Dynatrace 全球技术副总裁 Chuck Miller
  • 数据收集阶段:想要应用 AI 或者自动化,很重要的一点是要拥有高保真的数据,那么这些数据从何而来呢?OneAgent 技术可以在应用环境中自动地发现需要观测、监控的数据,包括网络、系统、容器以及微服务中的数据,收集完之后还可以把相关内容呈现出来。

  • 数据处理阶段:收集到这些数据之后,AI 引擎就可以深度处理数据。Dynatrace 系统中还包括机器学习 Built-in(内置)、自动 Baselining(基线),结合 AI 引擎就可以分析得出某些结论。

  • 根因分析:当有异常问题发生的时候,AI 引擎会自动去追踪用户的操作路径,也就是追踪服务访问和调用的路径,通过对各个不同层面监控对象的数据分析和关联,比如主机、进程、服务以及应用的数据关联,来自动分析出根因。

与传统 AI 引擎不同,Dynatrace 的 AI 引擎是为了特定目的而构建的,可以做到实时因果关系输出。传统 AI 引擎实现的是关联关系(Correlation)方式的分析,其缺点是无法实时输出,需要花费时间去学习才能看到想要的数据,很多客户可能无法接受这一缺点。

数据在 Dynatrace 平台中的流转其实是个闭环,平台将数据提供给智能化(或自动化)工具,该工具根据数据做出反应操作之后,会把结果返回给平台,得到新数据之后,可能又会触发新的动作。以此循环往复,AI 引擎的判断会越来越准确,运维的动作也会越来越精确。

云平台下的运维技术如何发展?

企业上云已经成为了一种趋势,甚至有些企业可能上的不止一朵云,根据 Kentik 公司的一项调查表明,如今 40% 的组织认为自己是多云用户,他们的组织拥有两个或多个云服务提供商提供的云服务。那么上云之后的企业会面临哪些挑战?又会如何影响运维呢?

上云之后,企业往往会遇到以下挑战:

  • 环境复杂:公有云、私有云和混合云难以互通;

  • 大规模:企业上云以后,应用和数据规模都会暴增;

  • 应用动态变化:容器和微服务的技术都是动态变化的;

  • 部署频率提升:采用 DevOps 提升了软件部署和交付的效率;

Dynatrace 在服务用户的过程中,也同样发现了用户不愿意只投资单一云环境,而更倾向采用多云平台,这就要求应用监控方案可以实现跨云的自动化服务。Dynatrace 引入了自主云管理概念(Autonomous Cloud Management, ACM),以期解决 IT 复杂性难题。但 ACM 并不是一套做法就可以适用于所有用户,而是每个客户都有自己独特的部分。

实现自主云管理的第一步就是把监控自动化,将监控变成一个自主服务(self-serving)环境。其次,就是要和客户沟通流程,这也是花费时间最多的部分。最后,Dynatrace 有很多合作伙伴,他们会为 ACM 的实现补充很多功能和技术。

其实,企业上云并不单纯是把计算放在云上,有一个部分很重要,就是如何帮助企业使整个应用开发过程做得更快更好,如何优化交互,如何通过云更快速地实现回应的链路 (feedback loop)。

据了解,金融行业是对 ACM 接受程度非常高的行业之一,大多数实施 ACM 的客户来自银行和保险公司。Chuck Miller 举了美国 KeyBank 银行的案例:以前 KeyBank 开发人员从写完代码到生产(包括中间过程的测试和挑战),整个过程需要三周左右,而现在从整个代码的开发到生产的时间可以“天”为单位来计算。Dynatrace 帮助他们解决了两个问题:将定位和解决问题的时间从几天缩短到几个小时。另外,正如用户希望每十分钟可以发布一个新版本那样,目前 Dynatrace 对部分问题的解决已经能达到这一标准。

评论

发布