武汉的开发者们注意啦!AI技术战略、框架以及最佳实战尽在Azure OpenAI Day 了解详情
写点什么

对话阿里云田涛涛:企业如何用好云、管好云?

  • 2021-12-13
  • 本文字数:3180 字

    阅读完需:约 10 分钟

对话阿里云田涛涛:企业如何用好云、管好云?

近几年,数字化转型带来了更加复杂的 IT 基础设施和大量的业务系统,对企业自身的运维能力来说,是一场前所未有的大考。DevOps 出现以后,极大程度地提升了企业的研发效率,缩短了业务从研发到上线的周期。在相近时间诞生的云计算,其所拥有的“软件定义一切”的特性,更是与 DevOps、智能运维和基础设施即代码(Iac) 等自动化运维趋势相互促进。


然而,将传统的 DevOps 直接搬到云上,是否真正地释放了云的优势?企业到底应该如何“用好云、管好云”?


带着这些问题,InfoQ 在 2021 云上架构与运维峰会举办之际,采访了阿里云弹性计算管控平台技术负责人田涛涛。


云时代,运维不重要了?


云时代到来以后,运维的门槛被大幅降低。传统运维需要处理服务器、网络等硬件设备,而在云时代,运维工程师不再需要直接操作实体资源,负载均衡、动态伸缩、数据迁移等服务全部可以交由云平台厂商来提供。


因此,与“去运维”相关的言论甚嚣尘上,不少人认为运维岗位会逐渐走向消亡,但事实是否真的如此?

“云时代的运维,变得比以前更加迫切、更加重要。”田涛涛认为,运维不是消亡,而是需要进化,因为云原生趋势的到来,给运维提出了更多挑战。


第一,敏捷快速的交付方式给运维和交付带来了巨大的挑战。早前,研发团队交付一款 App 是按照半年时间进行规划的。如今,App 从研发、交付再到上线,整个过程仅需要 7 天。这样一来,高效地进行运维管理成为了云上运维必须思考的问题。


第二,排查问题的难度持续飙升。无论是传统设备还是智能化设备,服务化都是大家关注的焦点,但做到服务化之后,系统之间的耦合会使调用关系变得复杂,一旦出现问题,它的影响面非常不可控。如何能快速做好可靠性、可用性观测、问题排查以及问题诊断,同样成为了云上运维的重大挑战。


第三,在线系统数量变多,宕机影响变大。由于在线系统的数量越来越多,出现问题之后影响面是非常大的,甚至可能影响民生的工程。


不仅如此,云上运维的范畴也比以往更加广泛,运维人员需要关注蓝图规划、上云交付以及云上管理整个过程。我们能够清晰地感知到,身处新技术革命浪潮下,企业想要抢占市场,做好云上运维是非常重要的一环。

多数企业未发挥出云端 DevOps 潜力


几乎所有企业都十分认可公有云带来的产品和服务能力,并且大部分企业已经在公有云中使用了 DevOps,打通了开发与运维之间的壁垒,让团队从业务需求出发,向一个共同的目标前进。但将传统的 DevOps 直接搬到云上,又能否获得 1+1 等于或者大于 2 的收益呢?


答案是否定的。虽然云厂商屏蔽了底层的基础设施,让开发人员无需关注底层资源,使得很多企业认为上云其实是一件容易的事情。但实际上,云本身是一个非常复杂的操作系统,很多企业在传统线下没有自动化的基础设施工具。因此在田涛涛看来,企业没有转变观念、没有把云原生运维工具用好,是阻碍其充分发挥云端 DevOps 优势的一个重要原因。


根据 Puppt2021 年度运维报告显示,只有 20% 的企业认为自己充分发挥了云端 DevOps 的潜力。云上自动化运维的模式和思维与传统 DevOps 相比,仍然有着不小差异。这也是部分企业上云之后,建立一套云原生自动化运维体系的挑战。


首先,传统企业上云之后需要意识到,操作的主体会从操作资产变成了对可编程的资源,这个转变是非常重要的过程:传统运维模式操作的都是企业的资产,需要充分压榨提升单机的利用率和使用率,并需要提前很久规划资源;而云端运维天然就有弹性的属性,除了提升单机利用率,还可以 On-demand 地获取资源和释放,同时云平台把一切都变成了可编程的资源,通过开放 OpenAPI 和应用分组来让用户管控资源。


其次,云上运维对安全可审计的要求更高。云端操作会高频切换很多自动化的任务,操作来源和对象相对复杂,对操作审计和操作来源和报警的时效性要求比较高;云端提供的服务可以将服务通过一条命令直接暴露在公网之中,需要更多的设计和思考安全和网络规划能力来降低系统风险;高频的可编程自动化运维需要有比较好的审计和问题追踪能力,避免越权和不容易被追踪的问题。


此外,这几年自助服务已经成为很多企业的追求目标。在云上,很多企业都把自己的产品,通过服务的形式暴露给更多的客户,所以对于系统的可靠性有着更高的要求。

CloudOps 应运而生


“企业想要寻找到一名优秀的 DevOps 工程师,其成本是非常高的。”田涛涛说。


为此,阿里云为企业带来的破局思路是:帮助企业理解云上运维,并为处于不同阶段的企业推荐不同的功能,进而简化他们的学习门槛,提高使用云原生运维工具的便捷度。


在 2021 云上架构与运维峰会中,阿里云在业界首发了云上自动化运维(CloudOps)白皮书,定义并系统性阐释了一个新的词汇——CloudOps,着重强调如何在云平台上更好地践行 DevOps。同时,田涛涛也在会上发表了《CloudOps :自动化运维的新思路》的主题演讲。



据他介绍,CloudOps 作为传统 IT 运维和 DevOps 的延展,可以通过云原生架构实现运维的再进化,充分帮助企业降低 IT 运维成本、提升交付速度和系统灵活敏捷度、增强系统可靠性,构建更加安全可信开放的业务平台。在 CloudOps 白皮书中还强调了一点,CloudOps 不等于单纯的 Cloud+DevOps 或者 DevOpsonCloud,而需要将 DevOps 和云有机结合,才能收获更大价值。


此外,田涛涛在演讲时提到:“云上运维是一个从简单到复杂、从成长到成熟的管理过程。”企业根据不同的上云状态以及使用规模,其云上运维的思路都不尽相同,并且随着业务不断发展,运维的思路也日益复杂。创业公司从第一天开始就可以在云上部署其生产环境服务客户,而对于已经存在 IT 投入的公司来说,则需要花费更长的时间逐步上云。


但可以肯定的是,无论企业身处哪种场景,其运维需求都会持续存在:降低成本、提高效率是企业追求的核心目标。因此,有效地规划和制定运维策略和方法非常重要。阿里云在 CloudOps 白皮书中提出了成熟度模型——CARES,分为自动化能力、弹性能力、高可用能力、安全和合规能力以及成本资源量化管理五个维度进行衡量,帮助企业判断自己所处的阶段,也为处于不同阶段的企业提供运维策略参考与优化方向。


简化路径,让云上运维更简单


对于企业来说,如何能够高效地交付应用已成为了业界的共识,这就要求企业需要通过自动化、自主化的策略高效工作。对于一名研发人员来说,他们最头痛的问题就是在基础设施和应用之间来回切换、适配。

为了让企业在运维阶段更省心,田涛涛还在峰会中同步了 ECS 自动化运维套件的全新升级,包括服务器迁移中心、资源编排、运维编排等 15 个工具,可以帮助企业实现从 IT 架构的规划、迁移、部署、弹性扩缩容到日常管理,覆盖云基础设施全生命周期的自动化运维。


本次 ECS 自动化运维套件推出了新产品——应用管理 Application Manager,不同于从前的资源视角,应用管理支持从应用视角监控、管理和运维基础资源,实现更精细化的管理,并与阿里云 DevOps 平台云效集成,支持一键完成从代码编译构建到部署的全生命周期。



在接受 InfoQ 采访时,田涛涛表示:“基于用户在使用 ECS 过程中反馈的常见工单,我们建了一个集群模型来帮助用户快速定义、诊断错误的链路,这就是我们的智能诊断服务。之前系统出现问题时,企业需要花几个小时拉人、拉群去解决,但通过自助化服务的工具,可以做到秒级或者分钟级就把问题解决掉。”


和智能问答、智能机器人一样,ECS 的升级思路也是优先帮助用户解决问题。正如田涛涛在演讲结束时提到的那样:未来,传统的运维需要进化到新的思路,企业应该更少地关注基础设施和基础资源,更多地回归到应用本身,让企业运维视角与云平台的运维视角紧紧贴合。

写在最后


谈及对于云上运维的未来展望,田涛涛认为,在巨石应用改造和企业服务化适配的过程中,只有依靠团队的组织和更强大的自动化能力才能帮助业务提效,帮助客户构建更加坚实的基础设施,让企业更专注于产品的研发。这不仅仅是阿里云作为云平台的责任与使命,同样也是行业共同努力的方向。

2021-12-13 17:436148

评论 1 条评论

发布
用户头像
绑死云,焊死云,离云活不了
2021-12-20 08:59
回复
没有更多了
发现更多内容

ModStartBlog v6.7.0 后台管理优化,页面宽度调整

ModStart

关于微服务架构的思考

HummerCloud

微服务 云原生

「读源码」为什么注册路由时没有传入上下文,在接口方法中却能取到?

王中阳Go

Go golang 高效工作 学习方法 程序员

擅用瓴羊Quick BI报表分析工具,数据分析事半功倍

夏日星河

瓴羊Quick BI即席分析工具:创设数据分析捷径

巷子

最初设计时就会避开钽电容,这是为什么呢?三大理由告诉你原因

元器件秋姐

元器件 电容 钽电容

疑似45亿条递信息泄露,“三类主体”如何应对?

极盾科技

数据安全

ChatGPT入门案例|商务智能对话客服(三)| 社区征文

TiAmo

openai ChatGPT

在统信UOS上二进制安装GreatSQL

GreatSQL

MySQL UOS 统信 greatsql greatsql社区

Prompt Learning: ChatGPT也在用的NLP新范式

Baihai IDP

人工智能 自然语言处理 nlp ChatGPT 企业号 2 月 PK 榜

文盘Rust -- 本地库引发的依赖冲突

京东科技开发者

后端 Clickhouse 本地计算 rust语言 企业号 2 月 PK 榜

有爱相伴,宠爱有家,皮皮App发起关爱流浪动物主题公益活动

联营汇聚

腾讯前端必会面试题(必备)

loveX001

JavaScript

BeyondCampus-护航高校网络安全

权说安全

网络安全 零信任

前端标准化之旅

京东科技开发者

前端 代码规范 京东云 京东技术

unittest使用parameterized参数化后如何调用添加到测试套件中

Python 单元测试 自动化测试 unittest 测试套件

假如面试官问你Babel的原理该怎么回答

loveX001

JavaScript

责任链和策略设计模式-基于Java编程语言

京东科技开发者

Java spring 代码规范 京东云 京东技术

迷恋管理是一种病

虎妞先生

面试了20+前端大厂,整理出的面试题

loveX001

JavaScript

开学季,5门优选好课助你在新学期狂飙!

博文视点Broadview

瓴羊Quick BI为企业决策者提供可视化分析服务

小偏执o

Python设置显示屏分辨率

Python 分辨率

吃透阿里2023版Java性能优化小册后,我让公司系统性能提升了200%

程序员小毕

数据库 程序员 JVM 架构师 Java性能优化

Percona 8.0.30中show engine innodb status导致coredump排查及分析

GreatSQL

MySQL MySQL 高可用 :MySQL 数据库 greatsql greatsql社区

令人头秃的js隐式转换面试题,你能做对吗

loveX001

JavaScript

面试官:限流算法有哪些?

王磊

java面试

vivo版本发布平台:带宽智能调控优化实践-平台产品系列03

vivo互联网技术

版本发布 CDN带宽

搞懂Druid之连接创建和销毁

小小怪下士

Java 程序员 后端 Druid

ChatGPT风口下的技术“狂飙”,天翼云荣登ZeroCLUE榜首

天翼云开发者社区

基于飞桨PaddleClas完成半导体晶圆图谱缺陷种类识别

飞桨PaddlePaddle

paddle 开源 飞桨

对话阿里云田涛涛:企业如何用好云、管好云?_服务革新_郑思宇_InfoQ精选文章