阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

对话柯旻:中小企业不适合实践 AIOps,更应该上云

  • 2020-02-18
  • 本文字数:3410 字

    阅读完需:约 11 分钟

对话柯旻:中小企业不适合实践AIOps,更应该上云

2016 年,Gartner 提出了利用 AI 技术的新一代 IT 运维,即 AIOps(智能运维),来解决未来企业可能遭遇的因 IT 故障而导致的业务中断。随后,AIOps 的概念得到了广泛普及和发展,有人把 2018 年称为 AIOps 的落地元年,把 2019 年称为 AIOps 快速发展的一年,那么,实际情况到底如何呢?InfoQ 准备了 7 个 AIOps 领域的“尖锐问题”,并采访了2020年QCon全球软件开发大会(北京站)AIOps专场的出品人柯旻。


根据 Gartner 预测,到 2022 年,40%的大中型企业将部署 AIOps 平台。那么,企业实践 AIOps 需要哪些前提条件呢?完整的 AIOps 实践需要具备哪些能力?企业转型为 AIOps,运维人员的工作需要做哪些转变?当前,国内 AIOps 实践到底进行到哪个阶段了?…以上这些大家关心的问题,柯旻都为我们做了解答。

自动化运维是 AIOps 的前提条件吗?

AIOps 的实践不是一蹴而就的,而是逐步发展的。在发展过程中,有人会质疑某些 AIOps 实践是伪 AIOps,质疑某些 AIOps 实践是传统运维+自动化策略…那么,AIOps 与其它运维方法的差异体现在哪里?实现 AIOps 的前提条件是什么?哪些企业适合实践 AIOps?


Q:传统运维、自动化运维和 AIOps 之间的差异具体体现在哪里?


柯旻:如果要说传统运维、自动化运维和 AIOps 之间有哪些具体的差异,我认为主要是体现在机器资源的规模越来越庞大,以及业务组件越来越复杂复杂,带来的运维领域对数据化,智能化的越来越高的要求。


随着公司业务的发展,底层资源也会逐步跟随业务发展快速增长,同时由于体量发生巨大的变化,引发底层技术发生变革(例如分布式技术,存储计算分离等),整体的复杂性发生了质的变化,同时用户不再只是使用单产品,而是整个平台层面、多产品的整体使用,所以运维复杂度也会呈几何式增长。随着这些变化,如果完全靠人力已经无法有效支撑(稳定性,效率,成本,安全)其业务发展了。所以对数据化,智能化的需求会越来越迫切。



Q:自动化运维是实现 AIOps 的前提条件吗?


柯旻:从我个人的角度来看,自动化运维是实现 AIOps 的前提条件。


AIOps 本质上是通过机器学习算法以及相关的大数据技术能智能 &自动的解决日常运维方面的问题,这就涉及到对数据收集、传输、处理、在线/离线计算、AI 算法平台、工作流执行…等一系列的底层平台的功能依赖支持。所以 AIOps 一定是建立在一个比较高度完善的运维自动化基础上的,这样才能建立一整套底层数据处理平台,这其中会涉及从业务需求—算法实验—数据采集—提取 &清理—算法接口—达标反馈等一套平台以及流程落地,深度集成基础运维和数据运维服务以及核心的运维管控,以数据,算法驱动全链路适配不同运维场景。



Q:实现 AIOps 需要哪些前提条件?中小型企业是否适合实践 AIOps?


柯旻:想要实现 AIOps 涉及的相关还是比较多的, 比较常见的技术包括大数据平台相关技术、算法、机器学习、场景感知、自动化平台的完善等,当然最主要的还是上层组织认可后在资源上有一定保障的持续投入。


中小型企业是否适合实践 AIOps 呢?在我看来,目前来说是不适合直接实践 AIOps。相比来说,上云比实践 AIOps 更重要一些。因为 AIops 需要的相关底层的技术能力在云上都有一定的产品支持(云厂商已经把相关技术产品化掉),对于中小企业来说,上云后不需要太多底层技术资源上的投入,而可以直接使用云上产品来做相关的智能化数据分析,同时减少了一些 IAAS,PAAS 层的要求(例如虚拟资源动态切换这个一般云厂家都会提供相关功能,而我们只需要使用他们的能力),专注解决业务运维相关的运维问题,从而简化前期投入以及避免技术投资浪费(前期投入过多的底层技术资源,随着上云后这些技术投入很多将失去意义)。

完整的 AIOps 实践应具备哪些技术能力?

为什么企业会选择从传统运维转型到 AIOps 呢?在柯旻看来,做出这种转变的主要动因还是业务发展带来的底层资源规模的变化以及企业业务复杂度的变化。那么,一个较为完整的 AIOps 实践应该具备哪些技术能力呢?如果转型为 AIOps,运维人员的工作内容会有哪些变化呢?


Q:一个较为完整的 AIOps 实践应该具备哪些技术能力?


柯旻:抛开底层的自动化平台层面和数据收集处理的大数据平台方面的技术能力之外,AIOps 的核心主要集中在数据算法、机器学习技术方面。所以一个完整的 AIOps 实践需要多团队 &技能协同,例如 AI 算法专家需要对比方、层次聚类、随机森林、时序数据分解、DNN、RNN 等算法方面的技能,运维平台研发专家需要负责整个运维产品的开发,数据分析决策后如何闭环执行,具备工程研发以及产品化能力,同时 SRE 还需要了解架构规划、数据分析运营等相关多维度能力要求。一个完整的 AIops team 会是需要一个多方面综合技术能力的集中。


Q:如果企业向 AIOps 转型,那么运维人员的工作会发生哪些变化?


柯旻:说实话,企业转型 AIOps,对传统运维人员带来的冲击会非常大。比较突出的变化是,以前变更管控、配置管理、环境部署、日常操作、性能分析、故障定位等工作可能都会被智能分析、故障预警、运营分析、运维数据挖掘等取代。从核心上来说,越来越多的决策会交给机器算法来判断,机器会把绝大部分工作都做了,包括异常检测,根因分析/定位、异常预测等。不过,这个变化也不是突然发生的,而是慢慢逐步变化的。如果举个例子的话,就类似于现在的自动驾驶,不是一蹴而就直接到最终局。运维人员自身需要做的改变是,把自己脑中的经验能力抽象成自动化产品运维能力,把日常经验沉淀为平台数据积累,业务场景问题的提炼总结,升级自己的研发技能,和算法工程师一起帮助机器决策变得越来越准确。

当前 AIOps 实践的现状

有人说:“2018 年是 AIOps 落地的元年,2019 年是 AIOps 快速发展的一年。”确实,现在讨论 AIOps 概念的少了,讨论实践案例的反而多了。那么,在实际应用中,AIOps 有哪些最佳实践,目前 AIOps 的应用情况到底如何?


Q:AIOps 有哪些比较好的应用?如何看待国内目前 AIOps 的应用情况?


柯旻: 坦率来讲,目前我在 AIOps 领域还没看到太成熟的应用,在某些单维度、周期性的场景下可能有一定的效果,但在多维度海量数据场景下效果不是很理想,特别是在异常检测,根因分析、智能预测等场景中。主要原因可能是在这种场景下,有各类异常数据打标,产品一个版本发布变更之后可能会发生巨变,算法参数就失效了,导致出现大量的误报等。同时涉及的相关维度也比较多,例如可能用户只是个访问失败,涉及的链路有业务逻辑代码、分布式存储、缓存系统、数据库、CDN、网络、OS、硬件等各个环节。而很多时候大家都希望能有一个直接标准的机器学习算法一步到位来解决异常检测所有问题。但这种做法通常不太现实最后会走到死胡同,因为这整个问题已经复杂到 AI 算法不擅长的程度。所以这块从方式以及时间上这块还需持续投入。


从国内情况来看,我个人看到的目前几家头部企业在 AIOps 领域都在做一些持续尝试,因为业务场景已经倒逼相关公司运维团队必须要通过这样方式提升整体运维能力去解决稳定性、成本、效率等问题。(目前我们已经在日志聚类,异常检测-周期性检测,黄金指标分析,根因分析等场景上有了一定的落地)而其它企业的更多是在理论或观望阶段,又或是在某些地方做小的尝试,这些企业的特征是主要业务体量并没有那么紧迫的压力,而且需要有一定的技术积累持续投入。


Q:如何看待 AIOps 的发展趋势?


柯旻:我对 AIOps 的发展趋势还是持很乐观的态度,因为目前对于云计算整个业内大家都已经是一个比较清晰的共识,而随着企业逐渐上云之后,很多底层技术门槛都会逐步降低,例如大数据技术、算法能力、自动化运维能力…等等都会被产品化使用,使得大家可以更聚焦业务场景运维数据的智能化处理场景投入,解决实际的业务运维问题,继而提高整个运维领域的生产力。


最后附上我们内部对比 Tesla 的自动驾驶和 AIops 对比的一个情况。困难是未知的,目标是明确的。



采访嘉宾:


柯旻(大舞)大数据资深技术专家,阿里巴巴计算平台事业部基础工程技术负责人。从 2007 年加入中国雅虎后合并到阿里集团,历经 IDC,系统工程,CDN,云计算,大数据,等不同领域。目前负责整个阿里集团大规模离线计算,流计算,批处理,实时交互式分析型,AI 算法等大数据平台的公有云,专有云以及内部业务的运维以及运维产品开发,体系建设,架构规划,对外输出等方面工作。


更多 AIOps 落地实践请关注 QCon北京2020,大会邀请多位技术大咖与你一起探讨智能化运维新技术,帮你提升整体运维能力和效率,点击了解详情


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-02-18 10:266129
用户头像

发布了 497 篇内容, 共 308.5 次阅读, 收获喜欢 1907 次。

关注

评论

发布
暂无评论
发现更多内容

淘宝/天猫商品详情实时数据API技术实现

Noah

如何在iOS手机上查看应用日志

Geek_66e2f3

软件测试开发/全日制/测试管理丨Web 兼容性测试

测试人

软件测试 测试开发

聚道云软件连接器助力某贸易公司实现付款流程自动化

聚道云软件连接器

案例分享

简单聊聊数据库可以做什么,有什么用?

行云管家

数据库 云计算 大数据

Capture One Pro 22 for Mac(RAW图像处理软件) v15.4.2.12永久激活版

mac

苹果mac Windows软件 Capture One Pro 22 RAW文件转换器

揭秘加密货币周期:如何通过顶级代币指标洞察市场变化

Footprint Analytics

区块链 加密货币

大语言模型训练数据常见的4种处理方法

不在线第一只蜗牛

身为程序员,你很有必要了解一下提效工具“JNPF”

互联网工科生

程序员 软件开发 低代码 JNPF

助力企业出海,Ogcloud提供一站式网络解决方案

Ogcloud

网络 网络加速 组网

软件测试开发/全日制/测试管理丨App移动测试体系

测试人

软件测试

通过小程序容器轻松打造自有App小程序生态

Geek_2305a8

苹果mac电脑 Photoshop 2024中文完美激活版

影影绰绰一往直前

10年工作经验老程序员推荐的7个开发类工具

EquatorCoco

程序员 开发工具

聚道云软件连接器助力某餐饮管理有限公司实现人力资源信息自动化

聚道云软件连接器

案例分享

JDK安装与配置教程来啦

小魏写代码

加密钱包监控:守护企业资产与信誉的利器

Footprint Analytics

区块链 加密钱包

软件测试开发/全日制/测试管理丨测试左移和测试右移

测试人

软件测试 测试开发

2024提升计划|优秀程序员的10大共性特征

SoFlu软件机器人

程序员 软件开发 代码 测试 单元测试 构架

提升测试自动化:ForEach 循环在API测试中的高级策略

Apifox

测试 自动化测试 foreach Apifox 测试工具

实现数据一体化的有效措施

RestCloud

ETL 数据一体化

Zoho 2023:种长期主义的因,越经济下行的谷

ToB行业头条

低代码通过图形化编程,快速构建应用程序

高端章鱼哥

低代码 可视化开发 JNPF 软件开卡

高防服务器、高防IP和高防CDN之间有什么区别?

Finovy Cloud

网络安全 网络攻击防御 高防主机 高防IP 高防IP服务

MATLAB R2021b for mac(可视化数学分析软件) v9.11.0.1873467永久激活版

mac

苹果mac Windows软件 MATLAB R2021b 商业数学软件

服务器里面打开浏览器访问不了会是什么原因

德迅云安全杨德俊

深入理解 Docker 核心原理:Namespace、Cgroups 和 Rootfs

EquatorCoco

Docker 容器化 项目开发

新特性速览!Sermant重磅更新,1.3.0 release版本发布

华为云开源

微服务治理 sermant 字节码增强框架

精彩回顾 | 《国产数据库共话未来趋势》技术沙龙上海站成功举办!

阿里云数据库开源

数据库 阿里云 数据管理 国产数据库 polarDB

简便实用:在 ASP.NET Core 中实现 PDF 的加载与显示

快乐非自愿限量之名

【教程】代码混淆详解

雪奈椰子

对话柯旻:中小企业不适合实践AIOps,更应该上云_服务革新_田晓旭_InfoQ精选文章