写点什么

百度自动化运维的演进(一):聊聊百度自动化运维

  • 2019-09-09
  • 本文字数:1714 字

    阅读完需:约 6 分钟

百度自动化运维的演进(一):聊聊百度自动化运维

百度运维部于 2008 年正式成立,截至目前共打造了三代运维平台,百度的运维技术也经历了 web 化、开放化、智能化三个阶段。《百度自动化运维的演进》系列文章将分上、下两篇介绍百度自动化运维的演进历程,本篇主要介绍百度运维部对运维、自动化运维的理解与百度自动化运维评价标准,下篇则根据时间脉络介绍百度的三代运维平台。


注:本文所讨论的上下文内,特指互联网服务的运维,而非 IT 系统、IDC 等的运维,或者更具体地,指的是应用运维。

什么是运维

运维,从字面来看,可以将运维分为两部分:

1 运

运,一般的理解是运行,将服务运转起来,以满足用户和客户的需求;进一步的含义还有运筹,即统筹安排资源,提供最优解决方案,以达到效益最大化。

2 维

维,一般的理解是维护,维持并监护服务的运行过程,包括应对服务管理请求和事件;进一步的含义还有维系,或者说连接,特指其起到的承上启下和枢纽作用。


百度百科给出了非常明确的定义: 其核心目标是将交付的业务软件和硬件基础设施高效合理的整合,转换为可持续提供高质量服务的产品,同时最大限度降低服务运行的成本,保障服务运行的安全。


在百度运维部,我们对运维的理解,简单概括就是:确保大家高质量、高效率、低成本地使用百度产品。

什么是自动化运维

什么是自动化运维,答案有很多。这里,我尝试从另外一个角度,什么不是自动化,来尝试回答下:

自动化是达成目标的手段

首先,自动化不是运维的最终目标,而是达成目标的手段;通过自动化我们可以提高服务的可用性,可以加速服务的迭代,可以降低服务运行所花销的成本。

自动化是解决方案和工程

其次,自动化不是将运维人员的工作、行为进行简单封装和串联;而是通过总结、提炼、抽象形成的系统化的解决方案和工程(Engineering)。

自动化实现方法是多样的

再次,自动化的实现方法,不是一成不变的:一方面,我们运维的服务、我们支持的产品和用户都在不断变化(这就是互联网啊);另一方面,我们的自动化实施对象也在随技术能力的发展而不断演进(从自动化执行命令、到自动化感知故障、再到自动化决策规划)。

百度自动化运维的实践历程

百度运维部,于 2008 年正式确立,而运维工程师这个职位,出现得更早些(大概在 2004 年~2005 年),从一开始,运维部就在朝着自动化这个方向努力。

百度自动化运维标准

接下来给大家介绍的内容,是结合了我们多年的实践经验,并参考了 SAE(美国汽车工程师协会)针对自动驾驶所定义的分级标准得来的自动化运维分级标准。


我们也将其分成了 L1~L5 共 5 个层级,不同层级间的区别主要体现在如下 4 个方面的职能是人工还是运维系统实现的:


执行能力(Execution)


这很容易理解,将指令发送到目的端(服务器、设备等)执行并获得执行结果。执行能力是否由系统完成,是最基本的自动化要求,将其定义为 L1(工具辅助的自动化) ~ L2(部分自动化)。


感知能力(Perception)


包括感知服务的运行状态,感知服务的变更需求甚至故障事件,也可以称作理解。感知能力由系统完成后,结合一些固定的条件规则来决策并执行,可以达成 L3(有条件的自动化)。


规划能力(Planning)


根据其对待处理的需求、待解决的问题的感知,以及对运维对象的认知(知识),自主做出解决方案(规划)并在调度控制执行过程中,根据目标和运维对象的状态反馈来适时调整执行规划。规划能力由系统完成后,并由系统辅助人来进行知识、经验的沉淀以补充系统的扩展性,可以处理全部人类已知的运维工作,即 L4(高度自动化)。从 AI 角度看,可以认为到了这个层次的自动化运维系统具有了一定的弱人工智能。


主动学习能力(Proactive Learning)


主要指的是不依赖人,系统可以自行总结、提炼、抽象形成知识和经验的能力。至此,全部的运维工作都可以交由自动化运维系统处理了,即 L5(完全自动化)。从 AI 角度看,可以认为到了这个层次,称之为强人工智能了。

小结

从全局视角审视自动化运维的若干层次及其之间的关系,可以得到下面这张表格:



作者介绍:


运小皮,百度资深运维工程师,负责百度智能运维平台的设计和实施。曾负责网页搜索、移动搜索产品运维和服务高可用、持续部署等技术方向。


本文转载自公众号 AIOps 智能运维(ID:AI_Ops)。


原文链接:


https://mp.weixin.qq.com/s/gFdz6tdnpw2ICUqNCC-DnA


2019-09-09 14:052282

评论

发布
暂无评论
发现更多内容

通过Amazon Q CLI 集成DynamoDB MCP 实现游戏场景智能数据建模

亚马逊云科技 (Amazon Web Services)

人工智能

外部合作团队接入无忧!嘉为蓝鲸DevOps基础管理平台多租户管理,数据隔离防泄露

嘉为蓝鲸

研发效能 研发协同 基础管理平台 DevOps平台 CComm

AI如何赋能?2026年智能海外社交媒体监测服务的新选择

沃观Wovision

人工智能 AI Transcription 社媒监测 海外社交媒体监控 社媒分析

超融合科普:如何理解“软件定义”在数据中心基础设施中的实践

智驱前线

等保合规与风险评估在黑龙江的协同实践路径

等保测评

网络安全 信息安全 数据安全 黑龙江等保测评 哈尔滨等保测评

黑龙江地区等保合规与资产 - 策略双梳理的协同机制研究

等保测评

网络安全 信息安全 数据安全 黑龙江等保测评 哈尔滨等保测评

打造透明化智能车间:数控机床制造业MES系统

万界星空科技

mes 万界星空科技mes 制造业转型 数控机床行业 数控机床MES

聊聊场景题:百万人同时点赞怎么办?这个怎么回答

程序员小富

服务台 + 移动端双优化!嘉为蓝鲸WeOps一体化智能运维平台V5.28&V4.28提升运维协同效率

嘉为蓝鲸

智能运维 自动化运维 运维效率 一体化智能运维平台 一体化运维平台

夹子机器人、套利机器人、是什么原理呢 、能做到稳赚稳赢吗

西安链酷科技

用文心快码写个「隐私优先」的本地会议助手

Comate编码助手

AI编程 文心快码 文心快码Zulu

AI教研智能体平台:给老师的“技术型备课搭子”

上海拔俗

从数字到版面:得物数据产品里数字格式化的那些事

得物技术

大前端 数字化 数据产品

报销单 / 申请单打印不用愁!JNPF 打印设计全流程,一键拿捏

引迈信息

开源技术驱动与架构创新:AI领域的破局之道

澜舟孟子开源社区

人工智能 大模型

技术驱动革新!腾讯蓝鲸社区活动精彩回顾:四大智能运维实战路径分享

嘉为蓝鲸

AIOPS 智能运维 自动化运维 一体化运维 运维效率

Spring Data JPA 最佳实践【1/2】:实体设计指南

码界行者

Java Spring JPA

SSL证书详解:类型、工作原理与获取指南

qife122

SSL证书 加密技术

第三章 感知、思考与行动的闭环

愚夫

Agentic Agentic AI

AI智能体 - 多智能体模式

Hernon AI

AI智能体 AI开发框架 AI设计模式

一次快速响应的开源协作,让 DeepSeek-V3.2-Exp 性能满血回归

Baidu AICLOUD

百度百舸 DSA Sglang RoPE

跨境支付类 dapp 开发报价参考,避开隐形收费

西安链酷科技

黑龙江等保合规与安全审查支撑的协同关系

等保测评

网络安全 信息安全 数据安全 黑龙江等保测评 哈尔滨等保测评

AI 数据分析如何保障准确性?Aloudata Agent 构建可信数据基础

Aloudata

数据分析 ChatBI 智能问数 AI 问数 dataagent

技术赋能服务:AI驱动下的国外舆情监控服务升级路径

沃观Wovision

舆情监控 海外舆情监控 舆情监控网站 境外舆情监控 国外舆情

国外舆情监控软件终极指南:从入门到精通的选择策略

沃观Wovision

舆情监控 海外舆情监控 海外舆情 社交媒体监控 舆情监测服务

智源发布具身数据创新基座,携手行业共筑物理AGI基础设施

智源研究院

从传统架构到超融合:关键技术演进与架构范式转换科普

智驱前线

2026 出海媒体监控服务终极指南:从策略到工具选型

沃观Wovision

出海社交 出海 社交媒体监控 海外社交媒体监控 出海舆情

JimuReport 积木报表 v2.2.0 版本发布,免费的可视化报表和大屏

JEECG低代码

AI 数据可视化 报表 积木报表 报表工具

市场监管AI人工智能服务系统:让合规不费力,监管不缺位

上海拔俗

百度自动化运维的演进(一):聊聊百度自动化运维_软件工程_运小皮_InfoQ精选文章