如何在 Kubernetes 中对无状态应用进行分批发布_文化 & 方法_孙齐_InfoQ精选文章

AICon 深圳站聚焦 Agent 技术、应用与生态，大咖分享实战干货了解详情 



 写点什么

登录/注册

如何在 Kubernetes 中对无状态应用进行分批发布

在 Kubernetes 中针对各种工作负载，提供了多种控制器，其中 Deployment 为官方推荐，被用于管理无状态应用的 API 对象。本文将结合 Deployment 的特性，与常见的发布策略，以及我们在分批发布场景下的实践，做一些分享。

使用 Deployment 的场景

Deployment 在 Kubernetes 1.9 版本后被晋升为 GA 版本，基于 Spec 定义管理 Pod，无需关心每个实例的部署结构差异。

对于日常应用变更，可以满足如下典型场景：

• 应用变更，提供滚动升级策略，失败自动暂停。

• 应用变更失败，回滚到之前版本。

• 应用水平伸缩，支撑更高负载。

• 历史资源回收，不需要手工回收 Pod 或 ReplicaSet 资源。

Deployment 提供了 RollingUpdate 滚动升级策略，升级过程中根据 Pod 状态，采用自动状态机的方式，通过下面两个配置，对新老 Pod 交替升级，控制升级速率。

• Max Unavailable : 最大不可用实例数/比例。

• Max Surge : 调度过程中，可超过最大期望实例数的数/比例。

Kubernetes 生态中常见变更策略

基于 Deployment 的基础功能，结合 Service / Ingress / Istio 等流量控制组件，常见如下几种策略。具体对比分析与实现，可参考网上文章，这里不做过多展开：

滚动 Rolling：渐进式创建新版本，然后停止老版本，自动完成整个流程。

金丝雀 Canary：小部分流量，升级并导入新版本，手工验证完毕后，全量升级部署。

蓝绿 Blue/Green：创建出新版本，与老版本并存，通过切换流量实现发布与回滚。

重建 Recreate：杀死所有老版本，再用新版本重建。适用于开发、测试环境重新初始化。
A/B 测试：部署新版本，流量控制倒流，长期在线。严格来说，这是一种线上业务与商业化验证的模式，不是变更策略。

为何需要分批暂停

在日常变更中，上述机制会让变更变得简单和便捷，但 Deployment 有如下限制：

• 需要手工回滚。

• 无法暂停滚动升级过程。

那么客户发布过程中，经常会遇到哪些情况，导致发布失败呢？我们在整理与分析客户失败的发布时发现，主要出现在下面阶段：

• 开始灰度发布：因配置错误、打包异常、代码 BUG，或灰度后功能验证中发现了问题。

• 灰度验证成功，分批发布过程中：因网络白名单、资源不足、单机配置错误。

• 发布上线后：客户反馈、监控报警。

不难看出，一次常见的发布，在不同发布阶段，需要一个手动的、可以更细粒度的控制，减少对线上的不良影响。所以滚动升级的分批暂停功能，对核心业务发布来说，是质量保障必不可少的一环。那有没有什么方法，即可使用 Deployment 的滚动升级机制，又可以在发布过程中，结合金丝雀发布，分阶段暂停发布流程呢？

阿里在 K8s 中的分批发布实践：手动灰度+自动/手动分批发布

在阿里巴巴内部，分批发布是最常见的发布手段，用于保障线上发布。结合“可灰度、可监控、可回滚”作为基本发布要求，发布阶段可以分为主要两个阶段：

• 灰度阶段：先灰度 1-2 台，线上验证流量正确性。该阶段出现问题后，影响面可控、可快速回滚。大部分应用变更过程中，可能会出现的问题，均会在此阶段被发现或暴露。

• 自动/手动分批阶段：灰度成功后，一批批发布，为监控和报警，留足时间窗口，提前发现问题。

结合上述场景，我们采用管控 + 双 Deployment 方式实践了可暂停的分批发布。主要是基于如下两种发布策略的组合使用：

• Canary + Batch Rolling 策略结合。

• Canary : 灰度发布 XX 台，发布后暂停。线上验证流量。

• Batch Rolling : 分批发布 XX 批，发布后自动/手动继续发布下一批。

针对具体发布策略，我们的考虑和做法是这样的：

• 创建新 Deployment : 新版本发布，作为灰度验证的部署实例，初始实例数为 0；

• 进入灰度阶段：仅选取少量实例，扩容新版本 Deployment，缩容线上 Deployment；

• 进入分批阶段：根据分批实例，自动变更新老 Deployment 实例；

• 回滚阶段：反向做分批流程，将新版本实例数缩容到 0，老版本重新扩容到原有预期的实例数。

若发布过程中出现异常状态，如何及时发现错误，设置滚动升级卡点，或做到自动回滚呢？现在考虑如下：

• 自动健康检查：结合应用 Liveness / Readiness 检查配置，根据 Kubernetes Pod 状态，若发布过程中有任何发布失败情况，均停止当前批次新老 Deployment 的滚动升级操作。

• 终止发布回滚：认为任何的发布失败，不应该是等待排查问题再发一次，而是应该第一时间回滚代码，保障线上业务质量，然后再考虑第二次变更。所以当未完成本次分批发布时，终止变更，会自动回滚本次变更。

思考

通过扩展滚动更新，提供手工分批能力后，还有更多可以保障发布的策略与发布。

• 对灰度发布，结合流量控制规则，进行线上灰度验证。

• 结合更多监控指标，与线上服务情况，确定指标基线，作为发布卡点，让分批发布更自动化。

作者简介

孙齐（花名：代序），阿里巴巴高级工程师，负责企业级分布式应用服务 EDAS 及 EDAS Serveless 的开发和维护工作。

评论

发布

暂无评论

澳鹏与 Reka AI 强强联合，构建高质量的多模态 LLM 应用

人工智能数据标注生成式AI

专访惠众科技｜元宇宙应用如何借助3DCAT实时云渲染实现流畅大并发呈现？

3DCAT实时渲染

元宇宙实时渲染云

【网易云信】网易云信 RTC 音频问题排查的挑战与实践

RTC 实时音视频 AIGC

MoE 系列（三）｜使用 Istio 动态更新 Go 扩展配置

golang 程序员开发 java； envoy

AI数据采集的挑战和解决方案

Redis Operator在中原银行实践落地及能力创新

redis 云原生 operator redis operator

麻了，一个操作把MySQL主从复制整崩了

如何降低电动汽车软件的开发成本和风险？

龙智—DevSecOps解决方案

电动汽车市场电动汽车软件

面对复杂的系统与众多的插件，如何确保Jenkins项目的安全性？

龙智—DevSecOps解决方案

ci 持续集成 jenkins

用LeangooScrum敏捷工具做缺陷管理和迭代规划和迭代执行

Scrum 敏捷开发敏捷项目管理敏捷工具 scrum敏捷工具

可计算存储是否真的与众不同？

压缩数据计算与存储固态硬盘

2023 开源之夏｜和 Milvus & Towhee 一起玩转 AI、享开源、得奖金

Milvus Zilliz 向量数据库 Towhee 开源之下

从IDC数据库安全报告，看OceanBase安全能力

OceanBase 数据库

数据库 oceanbase

[杂谈]大型JSON数据切分(Java Jackson)

json elasticsearch Jackson 分割

用户费力度建设初探

Qunar技术沙龙

去哪儿网用户费力度

网易云信 RTC 音频问题排查的挑战与实践

RTC 实时音视频 AIGC

Git合并冲突的根本原因和解决方法

龙智—DevSecOps解决方案

AI数据采集——数字世界的智能伙伴

软件测试丨Pytest-运行用例、常用参数、执行pytest、异常处理

软件测试自动化测试测试开发 pytest

现代IT服务与企业服务管理：借助Jira Service Management实现团队互联，打造高效透明的服务体验

龙智—DevSecOps解决方案

软件测试/测试开发丨Python学习笔记之封装、继承、多态、模块

Python 软件测试自动化测试测试开发

来了！昇腾MindStudio全流程工具链分论坛精彩回顾，助力高效开发和迁移效率提升

通过自定义域名 + SSL 的方式访问 Amazon MQ for RabbitMQ

亚马逊云科技 (Amazon Web Services）

AntDB数据库体验室上线啦！一站式培训+实操，带您感受“电信级”国产数据库的魅力

亚信AntDB数据库

AntDB AntDB数据库企业号 5 月 PK 榜

【开源之夏 2023】欢迎报名 SOFAStack 社区项目！

开源开发 SOFA 开源之夏程序员 java

AE/PR插件-去朦胧除雾霾增强色彩调色插件ClearPlus

真大的脸盆

Mac AE插件 AE

AI别来搅局，chatGPT的世界不懂低代码

人工智能低代码 ChatGPT JNPF

大数据如何助力营销（1）市场调研

MobTech袤博科技