写点什么

专访骨灰级老炮井源:运维行业可能不存在了

  • 2023-03-11
    北京
  • 本文字数:2790 字

    阅读完需:约 9 分钟

专访骨灰级老炮井源:运维行业可能不存在了

作者的话:我们观察到:国内运维行业,不同的公司做法差异巨大,从业人员水平参差不齐,缺少普遍性行业认知,难以形成合力(这也会让 To B 的产品异常难做,不利于行业整体发展),甚至在部分公司,运维人员处在技术鄙视链最底层,我们希望为行业带来一些新的思路和发展推动力。


这需要很多行业老炮一起,输出观点,共同碰撞,才有可能形成一些先进的共识,形成行业前进的思想旗帜。所以,我们准备策划《运维百家讲坛》这么一档栏目,诚邀 100 个运维总监(或更高)级别的老炮,通过采访或约稿的方式输出他们的观点,给行业一些借鉴。


井老板是我 11 年入行加入百度时的团队大老板,骨灰级老炮,逮着这个机会不容易,把业内常见问题都问了个遍,以飨读者。井老板生性洒脱,嬉笑怒骂皆成文章,道理自在其中。这里是接地气、有高度的《运维百家讲坛》第 1 期,开讲!


嘉宾简介


井源,左一,前百度运维架构师,前小米运维负责人,前美菜 CIO。

有些运维人员反映公司对运维的价值所知甚少,您当年是怎么给公司讲清楚运维的价值的呢?

首先需要和公司讲清楚运维的岗位职责(运维是干什么、产出什么)和关键指标(度量产出成果),比如工作围绕稳定、安全、高效等方向展开,开展了哪些运维项目,如何主动推进关键指标的达成。


关键指标,不仅仅包含服务可用性,还有比如服务器资源达标率、服务故障数据(故障分类、故障响应时间、平均故障恢复时间、故障告警覆盖率)、服务安全指标、服务资源到位时长等等。


比如搭建一套完善的监控系统:

  • 监控服务器资源使用率,找出使用率不达标的服务器进行回收或资源重新分配,通过虚拟化、容器化等手段提升资源使用率;

  • 梳理告警阈值,规范 P0、P1、P2、P3 告警级别;监控系统提供告警合并、智能定位建议,提供活跃告警聚合,提供时间纬度的告警分析。方便更快的告警响应和故障定位,提升故障响应时间、故障恢复时间等;

  • 服务的告警和预案梳理,缩短平均故障恢复时间,提升故障告警覆盖率。

业内有观点认为云和 Kubernetes 这样的基础设施的崛起会让运维岗位逐渐消亡,您是怎么看待这样的观点呢?

很多年前我们运维团队的口号是 NO Ops,博客是 noops.me。


很早就说过,运维岗位会逐渐消亡,或者部分工作职责会消亡。拿系统运维来举例,以前管理的团队需要服务器工程师、内核工程师、网络工程师、CDN 工程师、机房运维工程师等小 20 人的团队。后来通过引入公有云,团队只有 4 个人,云资源管理员 1 人、CDN 调度工程师 1 人、网络工程师 1 人、内核工程师 1 人,他们只需要管理和调度好第三方公司提供的资源和服务即可。


随着 K8s 和云的普及,以及研发代码工程化的不断成熟,运维在这个过程中的参与度会越来越少。在部署框架成熟的情况下,为了节省运维人力,提升部署效率,二、三级服务的部署已经交给研发自助完成。

随着科技的发展,时代的变化,一个岗位的消亡是很正常的事情,及时做好调整和规划才是思考的重心。

在企业大范围上云的当下大环境里,您觉得运维人员应该做出哪些调整才能更适合当下的人才需求?


在上云的大环境下,运维工程师更应该面向业务、面向架构,拓展自己的业务范围,成为保障业务稳定的关键人才。如果还是和以前一样,仅仅只关注监控报警,只负责服务部署变更,那么势必会被淘汰。


另一方面,可以往专精的方向走,成为某个领域的专家(监控、大数据、K8s、数据库等等),走运维研发专家的方向。


人生的建议,多寻找一些副业,运维工作只是生活的一小部分。

AIOps 热炒了几年,但是最近明显声量变小了,您觉得企业现阶段应该落地 AIOps 么?应该注意哪些问题?


就拿智能监控为例,看到了很多文案说要通过 AI 预测故障、智能定位。到现在没有看到任何靠谱的案例。在一个服务变更快、依赖关系复杂、故障影响因素多的互联网业务系统中,如果真能通过历史数据,实现故障预测。那还不如去做地震预测,有几千年的地震数据积累,能够产生很大的社会价值。


做 AIOps 的前提,是真的懂 AI,清楚机器学习和神经网络的原理。有多少人工才有多少智能,AIOps 才能不是一个口号。

ChatGPT 这样的 AI 能力您觉得未来是否有可能解决运维行业的问题?

比如在故障管理中,根据故障的设备、数据、描述,通过知识库、历史故障库等等,给出故障可能的辅助建议(suggestbot)


BTW,如果你已经可以玩转 chatGPT 了,把这个技术投入到其他更能产生价值的领域吧,别老在运维这个领域耗着……

业务程序的部署,到底应该交给研发来做还是应该交给运维来做,在很多公司争论不休,您是怎么看待这个问题呢?


之前提到过,我们二、三级的服务是完全由研发去做,一级服务是运维和研发轮流去做,主要目的主要是让运维清楚当前服务的变化情况而已。运维人员在公司一开始做部署,更多是规范线上环境,规范服务部署方式,从而更好的研发部署系统,掌控所负责的服务架构


安全问题、流程问题,完全可以通过部署系统去解决。运维就不要守着这个没任何价值,没任何沉淀的工作不放了。

您最想对(运维)行业说的一句话是?为什么?

“物理学没有不存在,只是我们认为的物理学,可能不存在。” 运维行业可能也不存在了,多少运维人的梦想是 AIOps、NOOps,要么自己去干掉这个行业,要么在这个行业被干掉。

工具选型这块,到底是自研,还是使用开源,还是使用商业产品,是如何抉择的?

有能力有时间就使用开源,能力一般时间有限就使用商业产品。有钱有闲还很自负的话,可以尝试下自研。

您所在的公司是否也是多云架构?您觉得多云场景下哪些能力应该依托云厂商哪些能力应该自建?


我们是多云架构。专线或者数据传输的能力,这个需要自建。基于多云之上的公共能力也可以自建,比如监控系统、数据备份系统、部署系统、微服务核心组件等,其他的交给云厂商就好了。


您印象最深的一次故障是什么?对您有何启示?


运维这么多年,遇到的诡异故障太多了,root cause 让你根本想象不到。只能说,故障很难避免,只能设法减少故障的频率、影响面和影响时间。


所以你的绩效不是故障次数和故障级别,而是故障影响面、故障响应、恢复时间等


面对当下快速发展的基础技术,您对给刚入行和入行已久的运维人员,分别有什么职业规划的建议吗?


比较偏激哈~刚入行的,建议尽快转行!入行已久的,转行技术相对困难,已经打上了深深的运维烙印。我见过太多运维人员转行其他技术,多数都是运维研发、运维产品经理的岗位,还是找一下副业吧。

您觉得传统运维和 SRE 的区别是什么?您的团队做出这样的转型,其背后的思考是?


这都 2023 年了,聊这个话题就跟互联网运维弄个 NOC 监控值班一样,开倒车。


如果现在还在考虑要不要转型 SRE、怎么转型 SRE、SRE 的变化这些问题,就跟 5g 时代,还在考虑用 2g,还是 3g……都会被时代所淘汰。


作者简介:


秦晓辉,Open-Falcon、Nightingale 创始研发,极客时间《运维监控系统实战笔记》作者,公众号 SRETalk 主理人,快猫星云创业合伙人,创业方向是稳定性保障方向。如果你有兴趣来论坛输出一些自己的宝贵经验和见解,欢迎联系我,联系方式如下:18612185520(微信同号)。

2023-03-11 13:115401

评论

发布
暂无评论
发现更多内容

上万字详解Spark Core(建议收藏)

五分钟学大数据

大数据 spark 28天写作 3月日更

大作业6

YING꯭YING

Wireshark 数据包分析学习笔记 Day14

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

初识Golang之语法基础介绍

Kylin

读书笔记 3月日更 Go 语言

Zookeeper.03 - 实现分布式锁

insight

zookeeper 3月日更

C/C++ 性能优化背后的方法论:TMAM

vivo互联网技术

c c++ 性能优化 cpu

大作业--APP的注册与登录

王一凡

产品经理训练

知识图谱上的图神经网络

博文视点Broadview

EGG公链生态项目——EFTalk上的巴莱特定律

币圈那点事

区块链

图解堆排序

Silently9527

Java 排序算法 堆排序

朋友,你听说过跨域吗

河磨

spring CORS 跨域

Oracle Sql性能优化

大数据技术指南

oracle 大数据 28天写作 3月日更

什么时候编程语言不重要

soolaugust

编程语言

少些爹味才是好爹——再谈自主性

Justin

心理学 教育 28天写作 游戏设计

GoPath模式和GoMoudle模式的相爱相杀

happlyfox

28天写作 3月日更 Go 语言

电影AI修复,让重温经典有了新的可能

华为云开发者联盟

AI 电影 华为云视频 视频增强 经典

一招让Kafka达到最佳吞吐量

万俊峰Kevin

kafka go-zero Go 语言

怎么找属于自己最优的2B增长模型?

boshi

销售管理 SaaS 七日更

第8周大作业

八达鸟

JDK8新特性 Fork/Join 的优化

Java小咖秀

Java java8 jdk8 forkjoin fork

uc01. 备案合同

新盛

网上签约备案系统-需求文档

新盛

架构实践全景图

博文视点Broadview

故事开始了,Python 图像算法取经之旅 365 天的第 1 天

梦想橡皮擦

28天写作 3月日更

“时间”都去哪儿了?性能调优分析方法与案例详解

京东科技开发者

数据库 客户端

架构师训练营第十一周作业 - 命题作业

阿德儿

第 8 周作业 _ prd

园子

从容一些,不必赶「Day 25」

道伟

28天写作

智慧公安二维码定位报警系统开发,微警务平台解决方案

源中瑞-龙先生

二维码定位报警系统开发 智慧公安 智慧公安扫码

ECMAScript 2017(ES8)新特性简介

程序那些事

ecmascript 程序那些事 ecmascript 2017 es8

JVM笔记 -- 来,教你类加载子系统

秦怀杂货店

Java JVM 类加载 虚拟机

专访骨灰级老炮井源:运维行业可能不存在了_产品_秦晓辉_InfoQ精选文章