东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

搭建 Docker 监控框架的理论与范例

  • 2016-07-17
  • 本文字数:2050 字

    阅读完需:约 7 分钟

容器技术适用于分布式应用的构建与交付。Docker 作为容器技术的典范,已经被行业中很多国内外 IT 巨头企业采用,同时许多初创企业的业务也是基于 Docker 来实现的。在上个月结束的全球 DockerCon 16 大会上,Docker 的 CEO Ben Golub 宣布全球已有 46 万个应用 Docker 化,该数据在两年增长了 3000%。同时,Ben 称他们会继续努力使得每一台服务器都可以使用 Docker,并估计市场价值为上百亿。

InfoQ 就 Docker 运维的监控为主题,对云络网络科技的高级架构师王寒做了采访。

受访嘉宾介绍

王寒,云络网络科技公司高级架构师,2016 北京 QCon《 DevOps 与 Docker 的最佳实践》讲师,毕业于香港科技大学,曾任职于 IBM 和微软公司。擅长于 AWS、Azure 技术,Windows Networking,Docker 运维以及各类运维技术,DevOps 实践。

InfoQ: 作为运维监控方面的专家,你如何理解监控对于整个运维系统的意义?对于一般的系统,应该从哪些方面考虑监控内容?

王寒: 系统运维的很大一部分工作就是管理服务器,而管理的前提即是对被管理事物有清晰地了解。监控可以帮助我们了解我们管理的服务器的情况,所以监控是系统运维的基础。

对于一般性的系统,应该做到从下到上三层的监控:

  • 服务器层面,即最底层,包括服务器的基本信息如 CPU、内存、I/O、网络等;
  • 中间层,是服务器上安装服务的监控,如 Tomcat、Nginx、MySQL 等;
  • 上层应用层,这层可以使用 APM 监控工具来完成。

InfoQ:对于运维来说,系统基于容器带来了哪些便利性,又带来了哪些挑战?

王寒: 对运维而言,容器技术带来的便利性不多,而带来更多的是挑战。这些挑战包括在监控方面、日志收集方面、网络方面以及安全方面。在本次的访谈,我会主要谈谈容器技术给监控带来的挑战、以及相应的应对策略。

InfoQ:请谈一谈如 Docker 这样的容器监控原理?

王寒: Docker 监控大体分成三个部分:Docker 服务的监控、Docker 服务下每一个容器的基本监控、Docker 容器里所运行服务的监控

常见的监控方法包括 Cgroups,Docker command 以及 Docker API。Cgroups 就是利用伪文件的方式获取单个容器的基本状况,这种方式获取信息全但需要对数据做二次处理;Docker command 是利用 Docker 服务提供的一些命令来获取信息,这种方法简单便捷但信息量有限;Docker API 可以获取比 Docker command 更多的信息但是对于大规模的容器管理有着性能的瓶颈。

InfoQ: 在容器监控的探索中,你们遇到最大的挑战是什么?

王寒: 容器的监控主要挑战就是监控的代理安装在哪里,是在容器内部还是在容器外部。在容器内部的话,可以直接监控容器内的服务,但会占用资源;在外部的话技术上会复杂一些,但能更大程度的发挥容器的性能。

因为 Docker 官方的最佳实践是一个容器只运行一个服务,而添加监控代理在内部无疑增加了服务;所以为我们并没有考虑把监控代理放在容器内部。

经我们的经验,我们建议将监控给代理放在容器外部。将监控代理放在容器外部需要解决的关键技术,是如何获取容器内部服务的信息。

InfoQ:你们目前的监控方案是怎么样的?

王寒: 我们运维平台的监控系统是 Zabbix,所以我们主要是尝试了把监控集成到 Zabbix 上。下面是我们目前监控方案的流程图。

第一,考虑 Docker 监控代理安装的位置。如果选择将监控代理部署在容器内部,则需要在容器里启动一个 startup 服务来分别开启监控代理以及容器内所要执行的服务,这将损耗容器的性能所以这里并不建议;于是,我们尝试将监控代代理部署在容器外侧及 host 上。

其次,选择监控获取信息方式。从下自上来看,首先我们通过 Docker API 来获取 Docker 服务的信息,在这里我们可以收集到该 host 上有多少容器在运行,哪些停止,哪些暂停等整体信息;随后我们利用 Zabbix 的 Low discovery 获取容器的服务情况,然后在 Zabbix 后台建立相应的 Zabbix host;之后再分别利用 Cgroups(即伪文件 Pse-udo file)获取单一容器的 CPU,I/O 等基本情况,同时利用 Docker exec 脚本定位容器内部服务类别并赋予监控模板收集需要的信息。最后再将这些信息汇总到 Zabbix 服务器,进行统一的处理和显示。

InfoQ:基于容器的系统的未来将会怎样发展,这对于监控会带来怎样的影响?

王寒: 容器具有轻量级、易部署的特性,如果未来在性能、安全性、可靠性等层面更加成熟的话,那么容器技术在企业的使用程度会进一步增大。

容器技术是实现 DevOps 的一个重要技术手段。随着容器技术的广泛使用,将会出现更多的大规模的集群式容器需要监控和管理;我认为这将是未来容器发展对监控的一大挑战。

InfoQ 主办的 CNUTCon 全球容器技术大会即将开幕,特设 Docker 专题,将从技术层面剖析 Docker,专门解决参会者在 Docker 实践中遇到的共性技术难题。我们邀请到了曾经深度参与过 Docker 项目的企业开发者、开源项目代码贡献者前来分享。内容方面,不追求大而全,只希望能把一个小知识讲精讲透。


感谢徐川对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-07-17 19:004045
用户头像

发布了 58 篇内容, 共 42.5 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

克魔助手 - iOS性能检测平台

雪奈椰子

准确率90%+!大模型会话洞察平台来了

中关村科金

大模型 会话洞察

测试用例管理精要:Jira vs. Redmine vs. TestLink vs. 禅道

测吧(北京)科技有限公司

测试

WMS仓储管理系统的作用是什么?

万界星空科技

wms WMS仓库管理 万界星空科技 扫码出入库管理

质量管理QMS系统实施的好处是什么?

万界星空科技

质量管理 万界星空科技 QMS 质量管理QMS系统 生产质量管理

常用流程管理平台综合比较

测吧(北京)科技有限公司

测试

Bug管理实操指南:Jira vs. Redmine vs. TestLink vs. 禅道

测吧(北京)科技有限公司

测试

融云连续多年展现统治力,「IM 一哥」的通关密码

融云 RongCloud

【教程】苹果上架要求有哪些常见要点?

雪奈椰子

Jira项目进度管理深度解析:里程碑、燃尽图、负责人跟进

测吧(北京)科技有限公司

测试

【教程】Objective-C 性能监控

项目启动黄金法则:Kickoff会议、测试关注点、项目角色

测吧(北京)科技有限公司

测试

GitLab与代码管理的高效协同:流程平台的应用与优势

测吧(北京)科技有限公司

测试

开发者的口碑之选!融云获 CSDN、InfoQ 年度开发者影响力&技术生态构建奖

融云 RongCloud

IPQ6010 and QCN9074: innovative WiFi partnership to create the ultimate network experience

wallysSK

飞书OKR管理系统:打造高效团队目标达成的利器

测吧(北京)科技有限公司

测试

签约勃肯BIRKENSTOCK 第七在线助力智能商品数字化管理

第七在线

京东物流基于 StarRocks 的数据分析平台建设

StarRocks

数据仓库 StarRocks 数据分析平台

项目认证体系全览:PMP、CMMI、ISTQB、CSTQB解读

测吧(北京)科技有限公司

测试

项目排期战略:预估测试时间、灵活沟通工期不合理

测吧(北京)科技有限公司

测试

阿里云效平台在项目流程中的特色与应用

测吧(北京)科技有限公司

测试

构建 Streaming Lakehouse:使用 Paimon 和 Hudi 的性能对比

Apache Flink

大数据 flink 实时计算

喜讯!云起无垠上榜《CCSIP 2023中国网络安全行业全景册(第六版)》

云起无垠

项目复盘之道:Review制度与关键内容深度解析

测吧(北京)科技有限公司

测试

需求管理成功指南:产品经理沟通、解决不规范与变更频繁

测吧(北京)科技有限公司

测试

Redmine在项目管理中的应用及优势

测吧(北京)科技有限公司

测试

祝福加载中,签收你的新年好“饰”! 老庙与你共启“富余年”

科技大数据

一文看懂华为云IoT第三方物联网业务无感迁移方案

华为云开发者联盟

后端 物联网 华为云 华为云IoT 华为云开发者联盟

搭建Docker监控框架的理论与范例_语言 & 开发_木环_InfoQ精选文章