写点什么

管理 Kubernetes 集群时需要关注的关键指标

  • 2020-04-15
  • 本文字数:1495 字

    阅读完需:约 5 分钟

管理Kubernetes集群时需要关注的关键指标

有时我们在面对分布式系统工程时常感到痛苦。构建分布式系统真的很难,无论是哪个行业的企业,都希望我们在解决他们的业务问题的同时,还能考虑潜在的大规模业务问题。与大规模部署随之而来的一大挑战,是用户还要考虑创建新特性和避免回档。就算能够非常出色地实现这些目标,用户仍然会担忧很多其他问题,例如信息是否安全、是否遵从法规,以及企业的这一投资是否真的有足够价值。


如果上述描述和你的团队现在的境况很像,而且你们的系统已经在生产环境中运行了,那么恭喜你,你已经通过了第一轮考验。


无论你多么努力建立了一个出色的系统,有时意想不到的事还是会发生。有很多这样的先例。一个杰出的产品,或者是病毒式应用,可能会带来前所未有的成功,而成功之后你就会发现,原先你以为的、你的系统面对大规模应用时的处理方式,好像不适用了。



Pokemon Go 云数据存储的每秒处理数(预期 vs 实际)


来源: Bringing Pokémon GO to life on Google Cloud,发布于 2018 年 5 月 30 日


这一情况是可能发生的,而你也应该为此做好准备。这也是本系列文章所要提到的。在本系列教程中我们将向你介绍需要追踪的内容,为什么追踪它们,以及面对可能的根本原因时需要做的缓解处理。


我们会介绍每一种指标、追踪它的方法以及你可以对应采取的措施。我们将使用不同的工具收集和分析这些数据。教程不会涉及到太多细节的内容,但会提供拓展链接,让大家可以获取更多信息。话不多说,让我们开始吧。

Metrics:用于监控,不止监控

这一系列文章主要关注的是如何监控和运行 Kubernetes 集群。使用日志是一个不错的方法,但在大规模部署的情况下,日志在事后分析工作中可能有很大作用,却难以在过程之中不断警告运维人员那些正在出现的越来越严重的问题。 Metrics Server 可以监控容器的 CPU 和内存使用情况,以及容器所运行在的节点的情况


这让运维人员能够设置并监控 KPI(关键绩效指标)。这些运维定义层面的东西可以为运维团队提供一种确定应用程序或者节点何时不健康的方法。同时也给他们提供了查看问题所需要的所有数据。


此外,Metrics Server


(https://kubernetes.io/docs/tasks/debug-application-cluster/core-metrics-pipeline/)允许 Kubernetes 启用 Horizontal Pod Autoscaling


(https://kubernetes.io/docs/tasks/run-application/horizontal-pod-autoscale/)。该功能可以让 Kubernetes 在扩展 pod 实例数量时,是基于 Kubernetes Metrics API 报告的指标以及这些指标反映出来的 API 对象数量来进行扩展的。

在 Rancher Kubernetes 集群中设置 Metrics Server

从 Kubernetes 1.8 版本开始,Metrics Server 以 Kubernetes Monitoring Architecture


(https://github.com/kubernetes/community/blob/master/contributors/design-proposals/instrumentation/monitoring_architecture.md)插件的方式成为了拉取容器指标的标准。在该标准出现之前,默认使用的是 Heapster,现在已经弃用,而开始支持 Metrics Server。


很快,Metrics Server 就将可以在 Rancher 2.0 配置的 Kubernetes 集群上运行了。您可以在 Rancher 的 Github repo 中查看 Rancher 2.0 最新版本的发布动态,一起期待:https://github.com/rancher/rancher/releases


如果想让 Metric Server 工作,你必须通过 Rancher Server API 修改集群的定义。这样可以允许 Rancher 服务器修改 Kubelet 以及 KubeAPI 参数,让它们包含 Metrics Server 正常运行所需要的标记。


有关如何在 Rancher Provisioned 集群上执行这一操作,以及修改其他 hyperkube-based 集群的说明,可以参考 github 的这一链接:https://github.com/JasonvanBrackel/metrics-server-on-rancher-2.0.2


2020-04-15 23:04646

评论

发布
暂无评论
发现更多内容

PSYNC 命令的实现

急需上岸的小谢

9月月更

mysql 查询执行过程

急需上岸的小谢

9月月更

计算机网络——码元、波特

StackOverflow

编程 计算机网络 9月月更

编译器优化:何为别名分析

华为云开发者联盟

开发 编译器 企业号九月金秋榜

压测平台在全链路大促压测中的实践

得物技术

中间件 全链路压测 QPS 企业号九月金秋榜

Pipy + Sentinel 实现 Redis 的高可用

Flomesh

Service Mesh 服务网格

荣耀帐号服务,让用户获取变得更简单

荣耀开发者服务平台

手机 物联网 安卓 移动开发 honor

华为云宣布全面建设全球初创生态,3年内赋能10000家高潜初创企业

华为云开发者联盟

云计算 创业 创新创业 企业号九月金秋榜

阿里云视觉智能开放平台2D视频转3D视频开启邀测啦

夏夜许游

人工智能 AI 3D

实操指南:如何为 SAST 工具设置误报基准?

SEAL安全

应用安全 静态应用安全测试 SAST 应用安全测试 软件供应链安全

住宅代理IP在网络攻击中的作用

郑州埃文科技

代理IP 安全检测 撞库攻击

论监控中事件管理的艺术

穿过生命散发芬芳

事件管理 9月月更

Redis复制的实现

急需上岸的小谢

9月月更

FreeRTOS记录(十、FreeRTOS实现带 I2C 通讯的 ModbusRTU 协议从机实例)

矜辰所致

FreeRTOS 9月月更 ModbusRTU

力扣151 - 反转字符串中的单词【双指针与字符串的火花】

Fire_Shield

双指针 LeetCode 9月月更

奇点云数据云平台发布DataSimba R3.8长期支持版

奇点云

奇点云

【HTML-CSS】小游戏--渣灰哥的愿望之砍砍渣灰

Sam9029

JavaScript HTML5, CSS3 9月月更

阿里云视觉智能开放平台商品图智能生成开启邀测啦

夏夜许游

人工智能 AI 电商 图像分割

送你5个MindSpore算子使用经验

华为云开发者联盟

人工智能 算子 企业号九月金秋榜

为超级品牌打造「上瘾算法」|Whale 帷幄发布全新 DAM & VAP 内容数字化产品

科技热闻

iofod - Echart 图表全支持

iofod jude

Java 前端 低代码

一步步搞懂MySQL元数据锁(MDL)

京东科技开发者

MySQL 数据库 元数据 数据库锁 mdl

MODBUS RTU 485 协议简要说明

矜辰所致

Modbus RS485 9月月更

活动报名| MongoDB 核心功能及其原理分析

MongoDB中文社区

mongodb

阿里云视觉智能开放平台离线人脸识别SDK开启邀测啦

夏夜许游

人工智能 AI 人脸识别 离线包

【死磕JVM】用Arthas排查JVM内存 真爽!我从小用到大

Java快了!

资源使用率提高25%,成本降低90%,云函数是怎么做到的?

最新动态

一招教你如何高效批量导入与更新数据

华为云开发者联盟

数据库 sql 后端 企业号九月金秋榜

现代数据栈如何降低数据平台的复杂度?

Kyligence

数据分析 云原生 指标中台 指标自动化

数据库发展史2--数据仓库

数据库 数据仓库 叶正盛 玖章

PhotoView——支持图片缩放、平移、旋转的一个优雅的三方组件

OpenHarmony开发者

Open Harmony

管理Kubernetes集群时需要关注的关键指标_文化 & 方法_Rancher_InfoQ精选文章