【QCon】精华内容上线92%,全面覆盖“人工智能+”的典型案例!>>> 了解详情
写点什么

专访骨灰级老炮井源:运维行业可能不存在了

  • 2023-03-11
    北京
  • 本文字数:2790 字

    阅读完需:约 9 分钟

专访骨灰级老炮井源:运维行业可能不存在了

作者的话:我们观察到:国内运维行业,不同的公司做法差异巨大,从业人员水平参差不齐,缺少普遍性行业认知,难以形成合力(这也会让 To B 的产品异常难做,不利于行业整体发展),甚至在部分公司,运维人员处在技术鄙视链最底层,我们希望为行业带来一些新的思路和发展推动力。


这需要很多行业老炮一起,输出观点,共同碰撞,才有可能形成一些先进的共识,形成行业前进的思想旗帜。所以,我们准备策划《运维百家讲坛》这么一档栏目,诚邀 100 个运维总监(或更高)级别的老炮,通过采访或约稿的方式输出他们的观点,给行业一些借鉴。


井老板是我 11 年入行加入百度时的团队大老板,骨灰级老炮,逮着这个机会不容易,把业内常见问题都问了个遍,以飨读者。井老板生性洒脱,嬉笑怒骂皆成文章,道理自在其中。这里是接地气、有高度的《运维百家讲坛》第 1 期,开讲!


嘉宾简介


井源,左一,前百度运维架构师,前小米运维负责人,前美菜 CIO。

有些运维人员反映公司对运维的价值所知甚少,您当年是怎么给公司讲清楚运维的价值的呢?

首先需要和公司讲清楚运维的岗位职责(运维是干什么、产出什么)和关键指标(度量产出成果),比如工作围绕稳定、安全、高效等方向展开,开展了哪些运维项目,如何主动推进关键指标的达成。


关键指标,不仅仅包含服务可用性,还有比如服务器资源达标率、服务故障数据(故障分类、故障响应时间、平均故障恢复时间、故障告警覆盖率)、服务安全指标、服务资源到位时长等等。


比如搭建一套完善的监控系统:

  • 监控服务器资源使用率,找出使用率不达标的服务器进行回收或资源重新分配,通过虚拟化、容器化等手段提升资源使用率;

  • 梳理告警阈值,规范 P0、P1、P2、P3 告警级别;监控系统提供告警合并、智能定位建议,提供活跃告警聚合,提供时间纬度的告警分析。方便更快的告警响应和故障定位,提升故障响应时间、故障恢复时间等;

  • 服务的告警和预案梳理,缩短平均故障恢复时间,提升故障告警覆盖率。

业内有观点认为云和 Kubernetes 这样的基础设施的崛起会让运维岗位逐渐消亡,您是怎么看待这样的观点呢?

很多年前我们运维团队的口号是 NO Ops,博客是 noops.me。


很早就说过,运维岗位会逐渐消亡,或者部分工作职责会消亡。拿系统运维来举例,以前管理的团队需要服务器工程师、内核工程师、网络工程师、CDN 工程师、机房运维工程师等小 20 人的团队。后来通过引入公有云,团队只有 4 个人,云资源管理员 1 人、CDN 调度工程师 1 人、网络工程师 1 人、内核工程师 1 人,他们只需要管理和调度好第三方公司提供的资源和服务即可。


随着 K8s 和云的普及,以及研发代码工程化的不断成熟,运维在这个过程中的参与度会越来越少。在部署框架成熟的情况下,为了节省运维人力,提升部署效率,二、三级服务的部署已经交给研发自助完成。

随着科技的发展,时代的变化,一个岗位的消亡是很正常的事情,及时做好调整和规划才是思考的重心。

在企业大范围上云的当下大环境里,您觉得运维人员应该做出哪些调整才能更适合当下的人才需求?


在上云的大环境下,运维工程师更应该面向业务、面向架构,拓展自己的业务范围,成为保障业务稳定的关键人才。如果还是和以前一样,仅仅只关注监控报警,只负责服务部署变更,那么势必会被淘汰。


另一方面,可以往专精的方向走,成为某个领域的专家(监控、大数据、K8s、数据库等等),走运维研发专家的方向。


人生的建议,多寻找一些副业,运维工作只是生活的一小部分。

AIOps 热炒了几年,但是最近明显声量变小了,您觉得企业现阶段应该落地 AIOps 么?应该注意哪些问题?


就拿智能监控为例,看到了很多文案说要通过 AI 预测故障、智能定位。到现在没有看到任何靠谱的案例。在一个服务变更快、依赖关系复杂、故障影响因素多的互联网业务系统中,如果真能通过历史数据,实现故障预测。那还不如去做地震预测,有几千年的地震数据积累,能够产生很大的社会价值。


做 AIOps 的前提,是真的懂 AI,清楚机器学习和神经网络的原理。有多少人工才有多少智能,AIOps 才能不是一个口号。

ChatGPT 这样的 AI 能力您觉得未来是否有可能解决运维行业的问题?

比如在故障管理中,根据故障的设备、数据、描述,通过知识库、历史故障库等等,给出故障可能的辅助建议(suggestbot)


BTW,如果你已经可以玩转 chatGPT 了,把这个技术投入到其他更能产生价值的领域吧,别老在运维这个领域耗着……

业务程序的部署,到底应该交给研发来做还是应该交给运维来做,在很多公司争论不休,您是怎么看待这个问题呢?


之前提到过,我们二、三级的服务是完全由研发去做,一级服务是运维和研发轮流去做,主要目的主要是让运维清楚当前服务的变化情况而已。运维人员在公司一开始做部署,更多是规范线上环境,规范服务部署方式,从而更好的研发部署系统,掌控所负责的服务架构


安全问题、流程问题,完全可以通过部署系统去解决。运维就不要守着这个没任何价值,没任何沉淀的工作不放了。

您最想对(运维)行业说的一句话是?为什么?

“物理学没有不存在,只是我们认为的物理学,可能不存在。” 运维行业可能也不存在了,多少运维人的梦想是 AIOps、NOOps,要么自己去干掉这个行业,要么在这个行业被干掉。

工具选型这块,到底是自研,还是使用开源,还是使用商业产品,是如何抉择的?

有能力有时间就使用开源,能力一般时间有限就使用商业产品。有钱有闲还很自负的话,可以尝试下自研。

您所在的公司是否也是多云架构?您觉得多云场景下哪些能力应该依托云厂商哪些能力应该自建?


我们是多云架构。专线或者数据传输的能力,这个需要自建。基于多云之上的公共能力也可以自建,比如监控系统、数据备份系统、部署系统、微服务核心组件等,其他的交给云厂商就好了。


您印象最深的一次故障是什么?对您有何启示?


运维这么多年,遇到的诡异故障太多了,root cause 让你根本想象不到。只能说,故障很难避免,只能设法减少故障的频率、影响面和影响时间。


所以你的绩效不是故障次数和故障级别,而是故障影响面、故障响应、恢复时间等


面对当下快速发展的基础技术,您对给刚入行和入行已久的运维人员,分别有什么职业规划的建议吗?


比较偏激哈~刚入行的,建议尽快转行!入行已久的,转行技术相对困难,已经打上了深深的运维烙印。我见过太多运维人员转行其他技术,多数都是运维研发、运维产品经理的岗位,还是找一下副业吧。

您觉得传统运维和 SRE 的区别是什么?您的团队做出这样的转型,其背后的思考是?


这都 2023 年了,聊这个话题就跟互联网运维弄个 NOC 监控值班一样,开倒车。


如果现在还在考虑要不要转型 SRE、怎么转型 SRE、SRE 的变化这些问题,就跟 5g 时代,还在考虑用 2g,还是 3g……都会被时代所淘汰。


作者简介:


秦晓辉,Open-Falcon、Nightingale 创始研发,极客时间《运维监控系统实战笔记》作者,公众号 SRETalk 主理人,快猫星云创业合伙人,创业方向是稳定性保障方向。如果你有兴趣来论坛输出一些自己的宝贵经验和见解,欢迎联系我,联系方式如下:18612185520(微信同号)。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2023-03-11 13:114901

评论

发布
暂无评论
发现更多内容

架构师训练营第 8 周作业

netspecial

极客大学架构师训练营

《Web应用安全权威指南》.pdf

田维常

fastJson与一起堆内存溢出'血案'

AI乔治

Java 架构 JVM Fastjson 内存溢出

我用 Python 找出了删除我微信的所有人并将他们自动化删除了

Python小二

Python 微信

Flutter 开发从 0 到 1(一)需求与准备

吴小龙同学

flutter ios android 跨平台

架构师训练营第 8 周学习总结

netspecial

极客大学架构师训练营

JVM真香系列:图解垃圾回收器

田维常

JVM 垃圾回收

ARTS Week14

丽子

架构师训练营 - 第四周学习总结

joshuamai

在线IDE开发入门之从零实现一个在线代码编辑器

徐小夕

Java ide H5 H5制作 代码编辑器

目标检测-darknet 之模型初始化

Dreamer

C++的智能指针你了解吗?

良知犹存

c++

如何正确的关闭线程池

Rayjun

Java 线程池

你以为只是简单的排序?(一)

书旅

数据结构与算法 Go 语言

作业-第4周

arcyao

作业-第4周总结

arcyao

python+requests进行get、post方法接口测试

测试人生路

Python 接口测试

架构师训练营第 1 期 - 第八周总结

Todd-Lee

极客大学架构师训练营

java是如何调用native方法?hotspot源码分析必会技能

诸葛小猿

Java jdk JVM jni hotspot

Flutter 开发从 0 到 1(二)框架与网络

吴小龙同学

flutter ios android 跨平台

极客大学 - 架构师培训 -ch3 作业

bing5tui3

极客大学架构师训练营

架构师训练营 - 第四周课后练习

joshuamai

基于f2从零实现移动端可视化编辑器

徐小夕

Java H5 数据可视化 h5编辑器 H5制作

第八章作业

alpha

极客大学架构师训练营

极客大学架构师训练营第一期第八周总结

睡不着摇一摇

架构师一期

腾讯强推Redis成长手册!原理+应用+集群+拓展+源码五飞

小Q

Java redis 学习 架构 面试

【可下载】2020年底收官!为大家整理了物联网行业全面研究报告、行业洞察、白皮书……

IoT云工坊

人工智能 大数据 5G 物联网 智能家居

架构师训练营第1期 - week08 - 作业

lucian

极客大学架构师训练营

面试官最常用小心思:说说你的项目并发量多大?负载均衡怎么做?

小Q

Java Linux 学习 面试 并发

【JAVA】TreeSet, LinkedHashSet和HashSet差异对比

笑春风

极客时间 - 架构师一期 - 第八周作业

_

极客大学架构师训练营 第八周作业

专访骨灰级老炮井源:运维行业可能不存在了_产品_秦晓辉_InfoQ精选文章