AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

管理 Kubernetes 集群时需要关注的关键指标

  • 2020-04-15
  • 本文字数:1495 字

    阅读完需:约 5 分钟

管理Kubernetes集群时需要关注的关键指标

有时我们在面对分布式系统工程时常感到痛苦。构建分布式系统真的很难,无论是哪个行业的企业,都希望我们在解决他们的业务问题的同时,还能考虑潜在的大规模业务问题。与大规模部署随之而来的一大挑战,是用户还要考虑创建新特性和避免回档。就算能够非常出色地实现这些目标,用户仍然会担忧很多其他问题,例如信息是否安全、是否遵从法规,以及企业的这一投资是否真的有足够价值。


如果上述描述和你的团队现在的境况很像,而且你们的系统已经在生产环境中运行了,那么恭喜你,你已经通过了第一轮考验。


无论你多么努力建立了一个出色的系统,有时意想不到的事还是会发生。有很多这样的先例。一个杰出的产品,或者是病毒式应用,可能会带来前所未有的成功,而成功之后你就会发现,原先你以为的、你的系统面对大规模应用时的处理方式,好像不适用了。



Pokemon Go 云数据存储的每秒处理数(预期 vs 实际)


来源: Bringing Pokémon GO to life on Google Cloud,发布于 2018 年 5 月 30 日


这一情况是可能发生的,而你也应该为此做好准备。这也是本系列文章所要提到的。在本系列教程中我们将向你介绍需要追踪的内容,为什么追踪它们,以及面对可能的根本原因时需要做的缓解处理。


我们会介绍每一种指标、追踪它的方法以及你可以对应采取的措施。我们将使用不同的工具收集和分析这些数据。教程不会涉及到太多细节的内容,但会提供拓展链接,让大家可以获取更多信息。话不多说,让我们开始吧。

Metrics:用于监控,不止监控

这一系列文章主要关注的是如何监控和运行 Kubernetes 集群。使用日志是一个不错的方法,但在大规模部署的情况下,日志在事后分析工作中可能有很大作用,却难以在过程之中不断警告运维人员那些正在出现的越来越严重的问题。 Metrics Server 可以监控容器的 CPU 和内存使用情况,以及容器所运行在的节点的情况


这让运维人员能够设置并监控 KPI(关键绩效指标)。这些运维定义层面的东西可以为运维团队提供一种确定应用程序或者节点何时不健康的方法。同时也给他们提供了查看问题所需要的所有数据。


此外,Metrics Server


(https://kubernetes.io/docs/tasks/debug-application-cluster/core-metrics-pipeline/)允许 Kubernetes 启用 Horizontal Pod Autoscaling


(https://kubernetes.io/docs/tasks/run-application/horizontal-pod-autoscale/)。该功能可以让 Kubernetes 在扩展 pod 实例数量时,是基于 Kubernetes Metrics API 报告的指标以及这些指标反映出来的 API 对象数量来进行扩展的。

在 Rancher Kubernetes 集群中设置 Metrics Server

从 Kubernetes 1.8 版本开始,Metrics Server 以 Kubernetes Monitoring Architecture


(https://github.com/kubernetes/community/blob/master/contributors/design-proposals/instrumentation/monitoring_architecture.md)插件的方式成为了拉取容器指标的标准。在该标准出现之前,默认使用的是 Heapster,现在已经弃用,而开始支持 Metrics Server。


很快,Metrics Server 就将可以在 Rancher 2.0 配置的 Kubernetes 集群上运行了。您可以在 Rancher 的 Github repo 中查看 Rancher 2.0 最新版本的发布动态,一起期待:https://github.com/rancher/rancher/releases


如果想让 Metric Server 工作,你必须通过 Rancher Server API 修改集群的定义。这样可以允许 Rancher 服务器修改 Kubelet 以及 KubeAPI 参数,让它们包含 Metrics Server 正常运行所需要的标记。


有关如何在 Rancher Provisioned 集群上执行这一操作,以及修改其他 hyperkube-based 集群的说明,可以参考 github 的这一链接:https://github.com/JasonvanBrackel/metrics-server-on-rancher-2.0.2


2020-04-15 23:04798

评论

发布
暂无评论
发现更多内容

华为云CDN为企业下载加速,极大提升客户体验

i生活i科技

CDN

架构实战营 模块四作业

白杨

华为云为瑞星量身打造下载加速方案,助力瑞星完成产品升级

秃头也爱科技

数据上云难?华为云对象存储服务OBS给企业最便捷体验

路过的憨憨

数据即价值,华为云大数据BI解决方案助力企业实现数据高效转化

秃头也爱科技

用大数据服务医疗行业,华为云大数据BI,为医院智能决策提供保障

秃头也爱科技

更可靠、更高效的华为云ECS,助力企业业务迅速起飞

秃头也爱科技

浅谈服务接口的高可用设计

京东科技开发者

负载均衡 接口 后端 混沌工程 企业号 1 月 PK 榜

pip安装报错:UnicodeDecodeError 'utf-8' codec can't decode byte 0xc3 in position 4

Geek_7ubdnf

Python

CSDN 2022年度榜单揭晓,华为端云协同智能流程机器人斩获大奖

极客天地

Jira + GitLab 实践 DevOps

跟YY哥学Jira

DevOps gitlab jenkins Jira

2022总结,强风吹拂

程思扬

总结 年终总结 经验分享、

Spring Cloud Alibaba 2022.0.0.0 版本发布啦!

阿里巴巴中间件

阿里云 云原生 Spring Cloud Aliababa

Dubbo 正式支持 Spring 6 & Spring Boot 3

阿里巴巴中间件

spring 阿里云 云原生 Spring Boot dubbo

读 2022 年 JavaScript 趋势报告

devpoint

typescript vite SOLID tauri

Spring+Vue增删改查实例

Geek_7ubdnf

Vue springboot

还在自建MQTT物联网平台?快来试试开源MQTT托管型物联网平台——实践类

阿里云AIoT

安全 物联网 物联网安全 技术标签

看不见的控制流 — Rust 异步取消问题的几点思考

Greptime 格睿科技

数据库 rust 异步编程 tokio

华为云弹性云服务器 ECS,如何引领行业高速发展?

路过的憨憨

Atlassian FaaS 云开发平台 Forge 解析

跟YY哥学Jira

Jira Atlassian 云版 app development Forge

聊一聊华为云弹性公网IP的那些事儿

路过的憨憨

Java在Mac里启动一个新的Terminal

IT蜗壳-Tango

IT蜗壳教学

瑞萨E1/E20烧录工具自检方法

不脱发的程序猿

嵌入式 汽车电子 MCU 瑞萨 RH850

Python数据可视化:数据分布图表可视化

不脱发的程序猿

Python 数据可视化 大数据分析

华为云ECS弹性可扩展,为企业提供可靠、稳定、灵活、高效的计算环境

秃头也爱科技

Serverless 奇点已来,下一个十年将驶向何方?

阿里巴巴中间件

阿里云 Serverless 云原生

解决企业数据存储难题:华为云OBS,企业“上云”的不二之选

路过的憨憨

【玩转 Cloud Studio】 Cloud Studio的入门教程

Geek_7ubdnf

studio

conda安装报错:PermissionError [Errno 13] Permission denied

Geek_7ubdnf

Python

华为云桌面Workspace荣获CSDN年度创新产品与解决方案大奖

极客天地

2023-01-12:一个n*n的二维数组中,只有0和1两种值, 当你决定在某个位置操作一次, 那么该位置的行和列整体都会变成1,不管之前是什么状态。 返回让所有值全变成1,最少的操作次数。 1 <

福大大架构师每日一题

算法 rust Solidity 福大大

管理Kubernetes集群时需要关注的关键指标_文化 & 方法_Rancher_InfoQ精选文章