写点什么

阿里云监控体系现状概览

  • 2014-10-14
  • 本文字数:2610 字

    阅读完需:约 9 分钟

本文根据 InfoQ 中文站跟阿里云产品技术部产品总监马劲的在 2014 年 10 月初的一次电话交流整理而成,褚霸对本采访内容亦有所贡献。在本次沟通中,马劲对阿里云监控体系的现状进行了简单介绍,涉及到监控的覆盖面、监控粒度、故障识别、OpenAPI 的开放进度等方面。

嘉宾简介

马劲,花名竹蜓,来自阿里云产品技术部,是阿里云四大主题(云服务器,存储和多媒体、数据平台、中间件)的产品总监之一,负责阿里云所有中间件产品管理,目前负责管理的产品有 OCS(缓存)、MQS(消息队列)、ACE(云引擎)、ESS(弹性扩展)、PTS(性能测试)、Open Search(开放搜索)、ONS(开放消息服务)、云监控。竹蜓之前在 IBM 有 13 年工作经历,曾经担任云计算软件全球产品总监、大中华区软件 VIP 客户服务总监、大中华区软件培训负责人、攻城狮、程序猿等多个职位。

背景概述

监控体系是云计算基础架构最重要的组成部分之一。阿里云监控体系有两个视角:运维自己的集群监控体系,由技术保障部主导;以及用户视角的监控产品(如云监控服务),由产品技术部主导。运维的工作着眼于掌握每个服务的可用性、可靠性数据,提升发现问题解决问题的速度;客户的需求则是可以方便的看到自己阿里云资源的状态,包括资源的稳定情况和资源消耗情况等,以及客户基于阿里云的应用的状态,例如应用是否可用,性能如何。

当然,无论是何种角度的监控,底层基础架构是共享的。

过去一年主要完成的相关工作包括:

  • 为阿里云的各个产品逐步建立全链路监控,完成对所有服务各个模块端到端的数据采集(运维视角)
  • 在 2014 年 4 月开始“云监控”产品的公测,目前包含站点监控、ECS 监控以及自定义监控。ECS 的 CPU、内存、IO、存储等资源的状态,现在所有人都可以通过 API 项获取(用户视角)
  • RDS、SLB 在“云监控”上的接入正在实现当中(用户视角)

RDS 的监控

褚霸:RDS 全链路监控现在基本都做完了。RDS 较早做到全链路监控,是因为用户对数据库的 QPS 和 RT 变化非常敏感,倒逼着我们对系统更深入把控。

这就要求我们能够从网络(交换机)、操作系统、LVS、中间层、数据库整个链路能够从用户的视角收集到详尽的数据,通过流计算平台聚合、对比来看到异常,先于用户发现变坏的趋势,在更短的时间内做出响应。

全链路是个麻绳,需要整个链条上的每个部件都暴露出足够多的信息(特别是用户触发的行为动作),透过这个麻绳串起来。比如说 RDS 中间层统计数据在内存中按照树状组织的,基本上所有的内部模块都有详细的运行状态,日志和诊断代码在中间层中占比达到 30%。这些状态都在内存中,抓取统计数据的代价是恒定的,精细到每个用户的链接,再聚合成用户级别,主机级别,集群级别在监控系统界面上关联展现,指标超过 150 个,基本可以做到白盒,对系统的运行了如指掌。

监控粒度

ECS 上的 CPU 争抢情况已经按秒级采集数据,而对于 IO 访问的访问请求监控是更细粒度,统计到每个 IO 访问的响应延时。

监控的目的提供稳定的服务,在出了问题以后能尽快处置,即使做到十毫秒级,如果还是基于事件,问题报警,也是事后诸葛亮。监控希望能做到事前分析与预测,所谓后发先至,避免发生影响服务的事件,这本身是一个 IT 数据的大数据应用的课题,例如我们正在分析 VM 的 CPU 消耗周期变化尽可能把 CPU 密集的 VM 均匀分布到不同的物理机器上,同时正在开发动态热点迁移技术进一步提高用户体验。

做到秒级不是目标,做到主动预测、主动干预化解问题,避免服务对外不可用,才是我们的目标。

故障预测

基于全链路的监控与分析平台,我们对每一次的故障进行 review,将故障原因的相关指征提取出来,形成预警方法。有些故障是由软件更新的 bug 触发,不过 bug 触发的问题如果能够提取为指征,也可以回归到预警系统。另外,通过异常分析也可能找出可能未知的问题,报警让人来分析。

全链路监控与分析平台现在在 RDS 上得到应用已经取得不错的效果,ECS、SLB 和 CDN 等正在应用该平台。

弹性计算服务

阿里云正在做 Elastic Scaling Service 弹性计算服务,原计划 8 月发布,但是觉得还达不到公测的质量水平标准,所以有所延迟,预计近期(10 月)会推出邀请测试。

第三方监控服务

其实公测阶段的云监控产品目前还不太完善。比如 ECS 实例监控,现在还需要客户手动下载安装 Agent,这对于 ECS 服务器数量多的客户是工作量很大的,可以做得更加自动化。

阿里云的云监控会提供更多服务,同时也欢迎第三方能够针对阿里云开发一些高级的监控。目前市场上已经有客户自己安装了第三方监控可以在阿里云上使用,包括商业监控软件和开源监控软件对阿里云资源的监控,也有客户自己订阅了监控 SaaS 服务来监控他们跑在阿里云上的应用,包括一些国外的 SaaS 监控(如 New Relic)。

阿里云的云监控提供 OpenAPI,目前已经在针对小部分可信用户进行内测。内测资格目前只有经过单独审批才能拿到,主要针对企业客户。因为 API 涉及到权限、流量等安全因素,所以这方面会非常谨慎的逐步公开,一方面要借助内测用户的尖锐批评来改进,减少 bug、提升用户体验,另一方面也需要把文档更加完善起来,具体的时间表尚未确定。

总结

阿里云是非常技术的产品,但归根结底是为了让客户用的爽,解决客户的问题。阿里云总裁菲青经常带阿里云的管理者去跟客户沟通,管理者也被鼓励尽量带着一线员工出去了解客户。现在每次阿里云发新的 feature 之前,产品经理都会先把 demo 发到客户群里,这样在上线之前就能收集到部分反馈。今年 9 月初,阿里云管理者大会上搞了“火线 24 小时”的活动,全员自由组了几十个队伍去研究客户工单,在 24 小时内针对工单内容设计解决方案,最后选拔出来的 8 支队伍提供的方案在大会上讲演之后立刻往下迭代,不需要立项、审批、排期。这样的活动还会不定期的搞下去,只要客户有问题,阿里云就有动力持续的努力解决。

做阿里云,技术上固然有很多挑战,但最大的挑战还是对客户的理解。因为业务是很丰富的,比如客户提一个要查看某一个监控项比如缓存命中率的需求,我技术上实现不难,但做出来的东西未必是客户想要的,客户可能查看数据主要的目的是找到应用出了什么问题,具体观察的时间,观察到以后如何处理。唯有真的去客户那里和客户交流,深入了解客户使用的场景,了解客户的痛点,才能做出真正满足客户需求的服务。

工单,论坛都是是很重要的产品改进输入,我们的产品经理和管理者会认真看工单,不断转化为产品改进。恳请大家把您的问题告诉我们,“向客户学习,陪伴客户成长”是我们的理念。

2014-10-14 20:0611318

评论

发布
暂无评论
发现更多内容

牛刀小试基本语法,Go lang1.18入门精炼教程,由白丁入鸿儒,go lang基本语法和变量的使用EP02

刘悦的技术博客

golang 语言 语言 & 开发 教程分享 #go

没开发人员,接到开发物联网系统的活儿,干不干?

AIRIOT

低代码 物联网 低代码,项目开发

关注微信公众号,自动登陆网站

源字节1号

微信小程序

centOS7.3 安装启用 iptables 记录

JavaPub

Linux centos7 iptables

RT-Thread记录(一、RT-Thread 版本、RT-Thread Studio开发环境 及 配合CubeMX开发快速上手)

矜辰所致

RT-Thread 8月月更

这份阿里强推的并发编程知识点笔记,将是你拿大厂offer的突破口

了不起的程序猿

数据库 高并发 java程序员 大厂面试 java;

秘乐短视频挖矿系统开发详情

开发微hkkf5566

SonarQube即将亮相第十八届GOPS全球运维大会

龙智—DevSecOps解决方案

代码安全 GOPS大会 运维、 代码质量检测工具

2000多字教你三招在Linux中找出大文件,最后一个命令简直太简单了!

wljslmz

Linux 签约计划第三季 8月月更

有多一只“手”的机器狗出没?就在昇腾AI开发者创享日·南京站

科技热闻

Apache APISIX Ingress v1.5-rc1 发布

API7.ai 技术团队

APISIX kubenetes Ingress Controller

即刻报名|Apache Kylin X Apache DolphinScheduler:大数据底座的构建和展望

Kyligence

数字化转型 数字分析 数据调度

多业务模式下的交易链路探索与实践

转转技术团队

中台 状态机 FSM

2022 CCF国际AIOps挑战赛决赛暨AIOps研讨会报名已开启

BizSeer必示科技

人工智能 阿里云 华为云 信通院

手摸手带你 在 Windows 系统中安装 Istio

万猫学社

云原生 istio windows

内存问题难定位,那是因为你没用ASAN

华为云开发者联盟

云计算 开发 内存

Go编译原理系列6(类型检查)

书旅

Go 源码 后端

导火索:OAuth 2.0四种授权登录方式必读

知识浅谈

8月月更

WindTerm:新一代开源免费的终端工具,GitHub星标6.6k+,太酷了!

沉默王二

GitHub 终端工具

版本控制篇 | 龙智邀您共赴GOPS全球运维大会,探索大规模、敏捷、高质量、开放式的软件研发与运营之路

龙智—DevSecOps解决方案

运维 DevSecOps GOPS大会

数据治理体系演进简介

网易数帆

大数据 数据治理 元数据 数据标准

五大理由告诉你为什么开发人员选择代码质量静态分析工具Klocwork来实现软件安全

龙智—DevSecOps解决方案

静态代码分析 代码静态分析 SAST工具 SAST

官方发布·2022南京智博会定于10月份在新庄国展召开

AIOTE智博会

莅临GOPS大会龙智展位,获取Forrester最新报告:《Forrester Wave™:2021年第四季度企业服务管理报告》

龙智—DevSecOps解决方案

ITSM Forrester Wave Forrester

HDD杭州站•ArkUI让开发更灵活

HarmonyOS开发者

HarmonyOS

双因子与多因子身份验证有什么区别?

SEAL安全

身份验证

Python开启虚拟环境

技术小生

8月月更 Python虚拟环境

【7.29-8.5】写作社区精彩技术博文回顾

InfoQ写作社区官方

优质创作周报

硅谷来信:快速行动,Facebook、Quora等成功的“神器”!

博文视点Broadview

开源一夏 | Java格式化日期 微秒

六月的雨在InfoQ

开源 8月月更

2022年6月互联网医疗领域月度观察

易观分析

医疗 市场

阿里云监控体系现状概览_服务革新_sai_InfoQ精选文章