最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

处理一次 k8s、calico 无法分配 podIP 的心路历程

  • 2020-10-22
  • 本文字数:2735 字

    阅读完需:约 9 分钟

处理一次k8s、calico无法分配podIP的心路历程

又一次偷偷化解了可能发生的重大事故。不想看过程的可以直接跳到末尾看处理方案。

一个网络错误

某天,上 kplcloud 构建一个测试应用,构建完成之后发现新 pod 一直启动失败,并且抛出了以下错误信息:


Failed create pod sandbox: rpc error: code = Unknown desc = NetworkPlugin cni failed to set up pod "xxxxxx-fc4cb949f-gpkm2_xxxxxxx" network: netplugin failed but error parsing its diagnostic message "": unexpected end of JSON input
复制代码


会 k8s 的运维同学不在,突然出问题了怎么办?


试着开始解决问题。


一、有没有可能是镜像拉取失败,开始找问题:


  1. 登录集群所有服务器查看空间是否占满(然而并没有占满)

  2. 查询集群所有服务器网络情况(也没有问题)

  3. 再启一个 pod 试试?(起不来)


这就尴尬了…,有没有可能是 calico 的问题?


二、查看服务器报错信息


尝试以下命令看服务器的报错信息:


$ journalctl -exf
复制代码


确实有一些错误信息:



这个错误太广泛了,继续尝试从其他地方找找问题。


此时已经开始在思考如何跑路的问题了…


要不尝试重启能否解决?


风险太大,不能冒险。虽然很多时候重启能解决大部分问题,但重起 docker、k8s 在这种情况下不是最佳选择。



继续搜刮日志,猜测是无法分配 IP 的问题,那目标转向 calico


从 calico-node 上面找问题


查询 ip 池是否用完。


使用 calicoamd 命令查询 calico 是否正常正常运行


$ calicoctl get ippools -o wideCIDR            NAT    IPIP172.20.0.0/16   true   false
$ calicoctl node status
复制代码



似乎是没啥问题。


开始场外求助…


无果



既然 calico-node 都运行正常,应该不会是 calico-etcd 的问题吧。

试试 calico-etcd

本着有疑问就查证试试的态度,下面开始对 calico-etcd 进行一顿骚操作。


为了减少代码量方便阅读,以下 etcdctl 所需要加的证书及 endpoints,就不一一添加了,大家参考一下就好:


ETCDCTL_API=3 etcdctl --cacert=/etc/etcd/ssl/ca.pem \--cert=/etc/etcd/ssl/etcd.pem \--key=/etc/etcd/ssl/etcd-key.pem \--endpoints=http://10.xx.xx.1:2379,http://10.xx.xx.2:2379,http://10.xx.xx.3:2379
复制代码


calico 并没有问题,试试 calico 所使用的 ETCD 是否正常,进入 calico-etcd 集群


$ ETCDCTL_API=3 etcdctl member listbde98346d77cfa1: name=node-1 peerURLs=http://10.xx.xx.1:2380 clientURLs=http://10.xx.xx.1:2379 isLeader=true299fcfbf514069ed: name=node-2 peerURLs=http://10.xx.xx.2:2380 clientURLs=http://10.xx.xx.2:2379 isLeader=false954e5cdb2d25c491: name=node-3 peerURLs=http://10.xx.xx.3:2380 clientURLs=http://10.xx.xx.3:2379 isLeader=false
复制代码


似乎集群也运行正常,get 数据也正常。


一切看起来都感觉是多么的正常,似乎没有什么毛病。


算了,算了,还是先写会儿简历吧,换换脑子。



那尝试向 ETCD 写入一条数据试试?


$ ETCDCTL_API=3 etcdctl put /hello world
Error: etcdserver: mvcc: database space exceeded
复制代码


✨报了一个错


Error: etcdserver: mvcc: database space exceeded ???



似乎是找到原因了,既然定位到问题所在,那接下来就好办了。(不用跑路了(⁎⁍̴̛ᴗ⁍̴̛⁎))把简历先放一放


感谢 google,我从 etcd 官网找到了一些线索及解决方案,后面我贴上官网介绍,先解决问题:


使用 etcdctl endpoint status 查询 etcd 各个节点的使用状态:


$ ETCDCTL_API=3 etcdctl endpoint statushttp://10.xx.xx.1:2379, 299fcfbf514069ed, 3.2.18, 2.1 GB, false, 7, 8701663http://10.xx.xx.2:2379, bde98346d77cfa1, 3.2.18, 2.1 GB, true, 7, 8701683http://10.xx.xx.3:2379, 954e5cdb2d25c491, 3.2.18, 2.1 GB, false, 7, 8701687
复制代码


上面可以看到集群空间已经使用了 2.1GB 了,这个值需要留意一下。


查询 etcd 是否有告警信息使用命令 etcdctl alarm list:


$ ETCDCTL_API=3 etcdctl alarm listmemberID:2999344297460918765 alarm:NOSPACE
复制代码


显示了一个 alerm:NOSPACE,这个表示没空间了,那是没什么空间呢?磁盘还是内存?先查询一下。



似乎磁盘、内存空间都足够的。从官网的信息了解到应该是 etcd 配额的问题,Etcd v3 的默认的 backend quota 2GB,也就是说 etcd 默认最大的配额是 2GB,如果超过了则无法再写入数据,要么把旧数据删除,要么把数据压缩了。


参考官方的解决方案


ETCD 官网参考:https://etcd.io/docs/v3.2.17/op-guide/maintenance/


  1. 获取 etcd 的旧版本号

  2. 压缩旧版本

  3. 整理碎片

  4. 关闭告警

  5. 测试数据是否可写入


回到 k8s 这边,删除那个失败的 pod,并查看是否可正常分配 ip。


一切正确,完美。


为了避免后续再出现类似问题,需要设置自动压缩,启动自动压缩功能需要在 etcd 启动参考上加上 xxxxx=1


https://skyao.gitbooks.io/learning-etcd3/content/documentation/op-guide/maintenance.html



etcd 默认不会自动 compact,需要设置启动参数,或者通过命令进行 compact,如果变更频繁建议设置,否则会导致空间和内存的浪费以及错误。Etcd v3 的默认的 backend quota 2GB,如果不 compact,boltdb 文件大小超过这个限制后,就会报错:”Error: etcdserver: mvcc: database space exceeded”,导致数据无法写入。


产生这么多垃圾数据的原因就是因为频繁的调度,我们集群有大量 CronJob 在执行,并且执行的非常活跃,每次产生新的 Pod 都会被分配到 ip。有可能是因为 pod 时间太短或没有及时注销而导致 calico-etcd 产生了大量垃圾数据

尾巴


因 calico-etcd 集群的的使用配额满了,在创建 pod 时 calico 所分配的 IP 无法写入到 etcd 里,从而导致 pod 创建失败也就无法注册到 CoreDNS 了。


为了不踩坑,监控是非常重要的,我们有 etcd 集群的监控,却忽略了 etcd 配额的监控,幸运的是当时并没有应用重启动或升级,没有造成损失。


最后的建议就是,没事上去点点,说不定会有您意想不到的惊喜(惊吓)。




本文转载自公众号宜信技术学院(ID:CE_TECH)。


原文链接


处理一次k8s、calico无法分配podIP的心路历程


2020-10-22 14:002674

评论

发布
暂无评论
发现更多内容

程序化广告还有未来么?——程序化领域变化的底层逻辑和反思

不在线第一只蜗牛

系统架构 系统搭建 程序化

搭建 OpenTiny 组件库的 Playground 指导手册

OpenTiny社区

开源 Vue 前端 UI组件库

可视化开发工具:让软件应用开发变得更轻松

高端章鱼哥

编程 低代码 JNPF

从单元测试到性能测试:41款工具满足所有的软件测试需求

PingCode

软件测试 PingCode 软件测试工具

云和恩墨大讲堂 x 长江鲲鹏 x openGauss Meetup(武汉站)圆满落幕!

daydayup

opengauss

数字孪生搭高台,温控节能唱新戏

鲸品堂

数字孪生 建模 智慧机房

香港中文大学携手PingCode打造运维管理解决方案

PingCode

PingCode 香港中文大学

第一批AIGC独角兽开始裁员了

Openlab_cosmoplat

人工智能

MySQL能用OFFSET分页查询吗

fm

MySQL

Nautilus Chain 主网上线,Zepoch 持有者将获第三轮 POSE 空投

威廉META

容灾切换时间减少 99%,“云边协同”如何提升影演服务效率与稳定性

阿里巴巴云原生

阿里云 云原生

Docker的架构与安装

timerring

Docker

可视化逻辑编排工具——低代码/无代码平台

互联网工科生

软件开发 低代码 无代码 JNPF

openGauss 5.0.0支持用户级全量审计解密

daydayup

opengauss

第二届粤港澳大湾区(黄埔)国际算法算例大赛正式开启报名

ModelWhale

算法大赛 琶洲 院士 数据科学竞赛 算法赛

别再说调试器不好用了!

高端章鱼哥

前端 调试器

一文了解 MySQL 全新版本模型

爱可生开源社区

安卓快速启动,启动速度 285 毫秒的实时安卓操作系统(RTAndroid)或 实时 Linux

winfredy

android Linux 快速启动

NFTScan | 07.17~07.23 NFT 市场热点汇总

NFT Research

NFT\

低代码是怎么火起来的?

这我可不懂

软件开发 低代码 JNPF

10 个处理 JavaScript 对象的实用技巧!

这我可不懂

JavaScript 前端 开发语言

2023年秋招最新版牛客网Java面试题及答案整理(持续更新)

架构师之道

Java 面试

深入理解 Serverless 计算的并发度

阿里巴巴云原生

阿里云 Serverless 云原生

3种常见的测试自动化类型

汽车之家客户端前端团队

前端 单元测试 集成测试 自动化测试 端到端

活动回顾丨云原生技术实践营广州站回放 & PPT 下载

阿里巴巴云原生

阿里云 云原生

MobPush Android SDK 厂商推送限制

MobTech袤博科技

消息推送 Android; 智能推送 推送 推送系统

和鲸 ModelWhale 与麒麟系统适配认证,打造自主安全、性能可靠的信创 AI 基础软件

ModelWhale

人工智能 信创 国产 麒麟软件 数据科学平台

网关改造正当时,跟学 HigressOps 夏季营

阿里巴巴云原生

LeaRun快速开发框架如何解决低代码劣势?

力软低代码开发平台

我也创业了!

Serverless Devs

人工智能 Serverless 云原生

记一次容器环境下出现 Address not available

阿里巴巴云原生

阿里云 容器 云原生

处理一次k8s、calico无法分配podIP的心路历程_软件工程_王聪_InfoQ精选文章