写点什么

专访骨灰级老炮井源:运维行业可能不存在了

  • 2023-03-11
    北京
  • 本文字数:2790 字

    阅读完需:约 9 分钟

专访骨灰级老炮井源:运维行业可能不存在了

作者的话:我们观察到:国内运维行业,不同的公司做法差异巨大,从业人员水平参差不齐,缺少普遍性行业认知,难以形成合力(这也会让 To B 的产品异常难做,不利于行业整体发展),甚至在部分公司,运维人员处在技术鄙视链最底层,我们希望为行业带来一些新的思路和发展推动力。


这需要很多行业老炮一起,输出观点,共同碰撞,才有可能形成一些先进的共识,形成行业前进的思想旗帜。所以,我们准备策划《运维百家讲坛》这么一档栏目,诚邀 100 个运维总监(或更高)级别的老炮,通过采访或约稿的方式输出他们的观点,给行业一些借鉴。


井老板是我 11 年入行加入百度时的团队大老板,骨灰级老炮,逮着这个机会不容易,把业内常见问题都问了个遍,以飨读者。井老板生性洒脱,嬉笑怒骂皆成文章,道理自在其中。这里是接地气、有高度的《运维百家讲坛》第 1 期,开讲!


嘉宾简介


井源,左一,前百度运维架构师,前小米运维负责人,前美菜 CIO。

有些运维人员反映公司对运维的价值所知甚少,您当年是怎么给公司讲清楚运维的价值的呢?

首先需要和公司讲清楚运维的岗位职责(运维是干什么、产出什么)和关键指标(度量产出成果),比如工作围绕稳定、安全、高效等方向展开,开展了哪些运维项目,如何主动推进关键指标的达成。


关键指标,不仅仅包含服务可用性,还有比如服务器资源达标率、服务故障数据(故障分类、故障响应时间、平均故障恢复时间、故障告警覆盖率)、服务安全指标、服务资源到位时长等等。


比如搭建一套完善的监控系统:

  • 监控服务器资源使用率,找出使用率不达标的服务器进行回收或资源重新分配,通过虚拟化、容器化等手段提升资源使用率;

  • 梳理告警阈值,规范 P0、P1、P2、P3 告警级别;监控系统提供告警合并、智能定位建议,提供活跃告警聚合,提供时间纬度的告警分析。方便更快的告警响应和故障定位,提升故障响应时间、故障恢复时间等;

  • 服务的告警和预案梳理,缩短平均故障恢复时间,提升故障告警覆盖率。

业内有观点认为云和 Kubernetes 这样的基础设施的崛起会让运维岗位逐渐消亡,您是怎么看待这样的观点呢?

很多年前我们运维团队的口号是 NO Ops,博客是 noops.me。


很早就说过,运维岗位会逐渐消亡,或者部分工作职责会消亡。拿系统运维来举例,以前管理的团队需要服务器工程师、内核工程师、网络工程师、CDN 工程师、机房运维工程师等小 20 人的团队。后来通过引入公有云,团队只有 4 个人,云资源管理员 1 人、CDN 调度工程师 1 人、网络工程师 1 人、内核工程师 1 人,他们只需要管理和调度好第三方公司提供的资源和服务即可。


随着 K8s 和云的普及,以及研发代码工程化的不断成熟,运维在这个过程中的参与度会越来越少。在部署框架成熟的情况下,为了节省运维人力,提升部署效率,二、三级服务的部署已经交给研发自助完成。

随着科技的发展,时代的变化,一个岗位的消亡是很正常的事情,及时做好调整和规划才是思考的重心。

在企业大范围上云的当下大环境里,您觉得运维人员应该做出哪些调整才能更适合当下的人才需求?


在上云的大环境下,运维工程师更应该面向业务、面向架构,拓展自己的业务范围,成为保障业务稳定的关键人才。如果还是和以前一样,仅仅只关注监控报警,只负责服务部署变更,那么势必会被淘汰。


另一方面,可以往专精的方向走,成为某个领域的专家(监控、大数据、K8s、数据库等等),走运维研发专家的方向。


人生的建议,多寻找一些副业,运维工作只是生活的一小部分。

AIOps 热炒了几年,但是最近明显声量变小了,您觉得企业现阶段应该落地 AIOps 么?应该注意哪些问题?


就拿智能监控为例,看到了很多文案说要通过 AI 预测故障、智能定位。到现在没有看到任何靠谱的案例。在一个服务变更快、依赖关系复杂、故障影响因素多的互联网业务系统中,如果真能通过历史数据,实现故障预测。那还不如去做地震预测,有几千年的地震数据积累,能够产生很大的社会价值。


做 AIOps 的前提,是真的懂 AI,清楚机器学习和神经网络的原理。有多少人工才有多少智能,AIOps 才能不是一个口号。

ChatGPT 这样的 AI 能力您觉得未来是否有可能解决运维行业的问题?

比如在故障管理中,根据故障的设备、数据、描述,通过知识库、历史故障库等等,给出故障可能的辅助建议(suggestbot)


BTW,如果你已经可以玩转 chatGPT 了,把这个技术投入到其他更能产生价值的领域吧,别老在运维这个领域耗着……

业务程序的部署,到底应该交给研发来做还是应该交给运维来做,在很多公司争论不休,您是怎么看待这个问题呢?


之前提到过,我们二、三级的服务是完全由研发去做,一级服务是运维和研发轮流去做,主要目的主要是让运维清楚当前服务的变化情况而已。运维人员在公司一开始做部署,更多是规范线上环境,规范服务部署方式,从而更好的研发部署系统,掌控所负责的服务架构


安全问题、流程问题,完全可以通过部署系统去解决。运维就不要守着这个没任何价值,没任何沉淀的工作不放了。

您最想对(运维)行业说的一句话是?为什么?

“物理学没有不存在,只是我们认为的物理学,可能不存在。” 运维行业可能也不存在了,多少运维人的梦想是 AIOps、NOOps,要么自己去干掉这个行业,要么在这个行业被干掉。

工具选型这块,到底是自研,还是使用开源,还是使用商业产品,是如何抉择的?

有能力有时间就使用开源,能力一般时间有限就使用商业产品。有钱有闲还很自负的话,可以尝试下自研。

您所在的公司是否也是多云架构?您觉得多云场景下哪些能力应该依托云厂商哪些能力应该自建?


我们是多云架构。专线或者数据传输的能力,这个需要自建。基于多云之上的公共能力也可以自建,比如监控系统、数据备份系统、部署系统、微服务核心组件等,其他的交给云厂商就好了。


您印象最深的一次故障是什么?对您有何启示?


运维这么多年,遇到的诡异故障太多了,root cause 让你根本想象不到。只能说,故障很难避免,只能设法减少故障的频率、影响面和影响时间。


所以你的绩效不是故障次数和故障级别,而是故障影响面、故障响应、恢复时间等


面对当下快速发展的基础技术,您对给刚入行和入行已久的运维人员,分别有什么职业规划的建议吗?


比较偏激哈~刚入行的,建议尽快转行!入行已久的,转行技术相对困难,已经打上了深深的运维烙印。我见过太多运维人员转行其他技术,多数都是运维研发、运维产品经理的岗位,还是找一下副业吧。

您觉得传统运维和 SRE 的区别是什么?您的团队做出这样的转型,其背后的思考是?


这都 2023 年了,聊这个话题就跟互联网运维弄个 NOC 监控值班一样,开倒车。


如果现在还在考虑要不要转型 SRE、怎么转型 SRE、SRE 的变化这些问题,就跟 5g 时代,还在考虑用 2g,还是 3g……都会被时代所淘汰。


作者简介:


秦晓辉,Open-Falcon、Nightingale 创始研发,极客时间《运维监控系统实战笔记》作者,公众号 SRETalk 主理人,快猫星云创业合伙人,创业方向是稳定性保障方向。如果你有兴趣来论坛输出一些自己的宝贵经验和见解,欢迎联系我,联系方式如下:18612185520(微信同号)。

2023-03-11 13:115389

评论

发布
暂无评论
发现更多内容

企业如何通过迁移到云平台来减少开支

云计算

OpenCV学习(一):简介

轻口味

android OpenCV 音视频 10月月更

空降Github榜单,火爆全网的Spring Security手册及源码笔记,竟然标星103K

Java 架构 面试 程序人生 编程语言

汽车域控制器(上):动力域控制器、底盘域控制器、智能座舱域控制器

SOA开发者

DBeaver

soap said

开发工具 数据库客户端

一个Camel Multicast组件聚合策略问题的解决过程

华为云开发者联盟

消息 Apache Camel Multicast 组件 Multicast 子路径

从坐席到外呼,明道云与品聘云呼叫对接示例

明道云

上汽零束汽车智能应用创意大赛,初赛作品评选将启动!

SOA开发者平台

厂长来了 | 从个人英雄到软件工程,我们经历了什么

万事ONES

项目管理 研发管理 SaaS

记一次Kafka服务器宕机的真实经历!!

冰河

Docker kafka 运维 服务器 消息队列

疫情反复,声网如何助力青岛教育局保障线上教学体验?

声网

人工智能 网络

逛街时偶然发现的阿里P8Java成长笔记,竟然在Github上标星90K+

Java 架构 面试 程序人生 编程语言

在GitHub标星86k+霸榜的某宝Redis核心原理深度实践PDF限时开源!

Java 架构 面试 程序人生 编程语言

模块八:设计消息队列存储消息数据的MYSQL表格

kk

架构训练营

华为云GaussDB(for openGauss) 同城双集群高可用方案正式发布

华为云数据库小助手

GaussDB GaussDB(for openGauss) 华为云数据库

“无用发明家”告诉你,5G推开了三重门

脑极体

面试失败总结,这577道LeetCode题Java版答案你值得拥有

Java 架构 面试 程序人生 编程语言

上汽零束汽车智能应用创意大赛,初赛作品评选将启动!

SOA开发者

汽车域控制器分类(下):自动驾驶域控制器、车身域控制器

SOA开发者

如何绘制一个仪表盘

Changing Lin

android 10月月更

研发效能度量引发的血案

CODING DevOps

DevOps 团队协作 研发效能 腾讯云 CIF 峰会 度量

什么是激光雷达的“发动机技术”?一文讲透行业技术壁垒 (一)

SOA开发者

深度解读 | 《2021年中国企业级 SaaS 行业研究报告》趋势剖析

万事ONES

SaaS 研发管理工具 ONES

腾讯面试聊到的几种存储虚拟化

hanaper

操作系统虚拟化VMware, Citrix, Hyper-v比较

hanaper

如何绕过WAF和本地防火墙双重防护?

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

一文看懂微服务背后的技术演进与应用实践

阿里巴巴中间件

阿里云 微服务 云原生 中间件

云原生消息、事件、流超融合平台——RocketMQ 5.0 初探

阿里巴巴中间件

阿里云 RocketMQ 云原生 中间件 消息

什么是激光雷达的“发动机技术”?一文讲透行业技术壁垒(二)

SOA开发者

【案例】云链智运携手百度OCR,实现货运物流智能化升级

百度大脑

人工智能

浅谈云上攻防--SSRF漏洞带来的新威胁

腾讯安全云鼎实验室

漏洞分析 SSRF

专访骨灰级老炮井源:运维行业可能不存在了_产品_秦晓辉_InfoQ精选文章