CNUTCon特刊:智能时代运维最佳实践

CNUTCon大会主要面向各行业对运维&容器技术感兴趣的中高端技术人员。秉承着“同步前沿技术、共享实战经验、聚焦最佳实践、激发思想碰撞”的宗旨,CNUTCon致力于帮助参会者了解国内外相关公司的领域动态及应用案例,使企业可以更精准地确定自己的选型方案,并提前预估相关的风险和收益,实现技术落地。
作者: InfoQ 中文站
下载此书

卷首语

刘建,搜狗资深架构师

云计算、移动互联网、IoT 等显著增加了企业 IT 环境的复杂度,使得高效的管理和运维 IT 环境 变得越发困难,并引起效率、质量和成本等多方面的问题。广大技术人员从基础架构、应用架构、数 据架构和应用框架等方面进行了深度的技术探索和实践,同时研发体系和运维体系也在不断相互融合 和促进,产生了 DevOps 和 SRE 等优秀实践以及 Kubernetes 和 Service Mesh 等优秀框架,并通过标准化、 自动化和智能化来持续提升企业 IT 环境的管理运维水平,降低运维成本。

标准化

标准化是推动 IT 技术持续发展的原动力之一。在 IT 运维领域,标准化涉及到方方面面。虚拟化 技术和 IaaS 简化了对机器和网络等硬件的管理。标准化组织 OCI 制定了容器镜像规范和容器运行时 的规范,建立了应用运维的标准,贯穿了整个应用生命周期。DevOps 则通过 CI/CD 标准化了软件研 发流程,将研发、测试和运维等流程连接起来。CNCF 更是提出了云原生的概念,云原生应用基于微 服务架构,以容器的方式来构建,以容器编排的方式来运行和管理。Kubernetes 也已经发展成为容器 编排领域的事实标准。总之,通过标准化可以整合工业界的资源,建立运维工具生态,降低运维工具 的构建和使用成本,提升运维工具的普适性。

自动化

运维的目标之一是保障应用的 SLA。应用运行时不可避免的受到各种故障的影响,比如磁盘故 障、网络故障、机器故障、应用 Bug 和访问量激增导致的性能问题等。为了降低故障对用户的影响,

减少人工操作的成本,应用运维中期望对故障检测、恢复和迁移等实现自动化。随着技术的发展, 自动化的工具和平台也不断涌现,例如 Puppet、Chef、Ansible、Saltstack、Cloud Foundry、Nomad 和 Kubernetes 等,都显著提升了 IT 运维的自动化能力。

Kubernetes 屏蔽了分布式环境下复杂的基础架构,提供了获取 CPU、内存和存储等的能力,支持 无状态服务、有状态服务、批处理任务和定时任务等。它很好地处理了基础架构中的故障,使得应 用可以自动进行故障转移和恢复。通过 Operator Framework 我们能够将应用级的故障处理能力植入到 Kubernetes 平台之中,进一步提升了应用运维的自动化能力。

自动化的工具和平台不仅能够提升应用对基础架构故障的容忍度,也能够提升其对应用自身故障
的容忍度。

智能化

IT 运维过程中会产生大量数据,包括操作数据、监控数据和日志数据等。这些数据具备多样性、 多维性和非结构化等特点。同时,应用基于微服务架构,也可能部署在多个环境中,导致其依赖也日 趋复杂。传统的基于人工的分析处理方式在定位故障原因和故障影响面分析等方面存在实时性不足和 效率低下等问题,会间接影响到应用的 SLA。随着大数据和人工智能的兴起,越来越多的智能算法也 应用于运维领域,它们在快速定位故障、流量预测、动态调整报警阈值、性能优化和成本优化等方面 发挥着越来越重要的作用,也将进一步降低运维成本。

长久以来,IT 运维管理的目标一直是保障质量、提升效率和降低成本。微服务、容器化、 DevOps、云计算和云原生等技术的发展使得 IT 运维管理变得更加敏捷和灵活。在标准化、自动化和 智能化的指导下,基础软件 (例如 Kubernetes) 及其生态的持续发展,也将使得基础架构及运行于其 上的应用具备自愈合、自优化和自管理的能力,从而早日进入“无人值守”的运维新时代。

目录

开着飞机换引擎? 揭秘阿里巴巴的数据库运维

AIOps 实践场景| 京东智能巡检机器人机房上岗!

腾讯互娱刘伟: 知识图谱让 AI 更有学识

FreeWheel 业务系统微服务化过程经验分享

不畏: 智能调度的核心是对业务数据的价值挖掘和有效利用 30 月活 4.31 亿的新浪微博,如何应对流量激增?

华为云 AIOps 实践全面解析

免费下载此书(PDF)

收藏

评论

微博

发表评论

注册/登录 InfoQ 发表评论