2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

阿里云监控体系现状概览

  • 2014-10-14
  • 本文字数:2610 字

    阅读完需:约 9 分钟

本文根据 InfoQ 中文站跟阿里云产品技术部产品总监马劲的在 2014 年 10 月初的一次电话交流整理而成,褚霸对本采访内容亦有所贡献。在本次沟通中,马劲对阿里云监控体系的现状进行了简单介绍,涉及到监控的覆盖面、监控粒度、故障识别、OpenAPI 的开放进度等方面。

嘉宾简介

马劲,花名竹蜓,来自阿里云产品技术部,是阿里云四大主题(云服务器,存储和多媒体、数据平台、中间件)的产品总监之一,负责阿里云所有中间件产品管理,目前负责管理的产品有 OCS(缓存)、MQS(消息队列)、ACE(云引擎)、ESS(弹性扩展)、PTS(性能测试)、Open Search(开放搜索)、ONS(开放消息服务)、云监控。竹蜓之前在 IBM 有 13 年工作经历,曾经担任云计算软件全球产品总监、大中华区软件 VIP 客户服务总监、大中华区软件培训负责人、攻城狮、程序猿等多个职位。

背景概述

监控体系是云计算基础架构最重要的组成部分之一。阿里云监控体系有两个视角:运维自己的集群监控体系,由技术保障部主导;以及用户视角的监控产品(如云监控服务),由产品技术部主导。运维的工作着眼于掌握每个服务的可用性、可靠性数据,提升发现问题解决问题的速度;客户的需求则是可以方便的看到自己阿里云资源的状态,包括资源的稳定情况和资源消耗情况等,以及客户基于阿里云的应用的状态,例如应用是否可用,性能如何。

当然,无论是何种角度的监控,底层基础架构是共享的。

过去一年主要完成的相关工作包括:

  • 为阿里云的各个产品逐步建立全链路监控,完成对所有服务各个模块端到端的数据采集(运维视角)
  • 在 2014 年 4 月开始“云监控”产品的公测,目前包含站点监控、ECS 监控以及自定义监控。ECS 的 CPU、内存、IO、存储等资源的状态,现在所有人都可以通过 API 项获取(用户视角)
  • RDS、SLB 在“云监控”上的接入正在实现当中(用户视角)

RDS 的监控

褚霸:RDS 全链路监控现在基本都做完了。RDS 较早做到全链路监控,是因为用户对数据库的 QPS 和 RT 变化非常敏感,倒逼着我们对系统更深入把控。

这就要求我们能够从网络(交换机)、操作系统、LVS、中间层、数据库整个链路能够从用户的视角收集到详尽的数据,通过流计算平台聚合、对比来看到异常,先于用户发现变坏的趋势,在更短的时间内做出响应。

全链路是个麻绳,需要整个链条上的每个部件都暴露出足够多的信息(特别是用户触发的行为动作),透过这个麻绳串起来。比如说 RDS 中间层统计数据在内存中按照树状组织的,基本上所有的内部模块都有详细的运行状态,日志和诊断代码在中间层中占比达到 30%。这些状态都在内存中,抓取统计数据的代价是恒定的,精细到每个用户的链接,再聚合成用户级别,主机级别,集群级别在监控系统界面上关联展现,指标超过 150 个,基本可以做到白盒,对系统的运行了如指掌。

监控粒度

ECS 上的 CPU 争抢情况已经按秒级采集数据,而对于 IO 访问的访问请求监控是更细粒度,统计到每个 IO 访问的响应延时。

监控的目的提供稳定的服务,在出了问题以后能尽快处置,即使做到十毫秒级,如果还是基于事件,问题报警,也是事后诸葛亮。监控希望能做到事前分析与预测,所谓后发先至,避免发生影响服务的事件,这本身是一个 IT 数据的大数据应用的课题,例如我们正在分析 VM 的 CPU 消耗周期变化尽可能把 CPU 密集的 VM 均匀分布到不同的物理机器上,同时正在开发动态热点迁移技术进一步提高用户体验。

做到秒级不是目标,做到主动预测、主动干预化解问题,避免服务对外不可用,才是我们的目标。

故障预测

基于全链路的监控与分析平台,我们对每一次的故障进行 review,将故障原因的相关指征提取出来,形成预警方法。有些故障是由软件更新的 bug 触发,不过 bug 触发的问题如果能够提取为指征,也可以回归到预警系统。另外,通过异常分析也可能找出可能未知的问题,报警让人来分析。

全链路监控与分析平台现在在 RDS 上得到应用已经取得不错的效果,ECS、SLB 和 CDN 等正在应用该平台。

弹性计算服务

阿里云正在做 Elastic Scaling Service 弹性计算服务,原计划 8 月发布,但是觉得还达不到公测的质量水平标准,所以有所延迟,预计近期(10 月)会推出邀请测试。

第三方监控服务

其实公测阶段的云监控产品目前还不太完善。比如 ECS 实例监控,现在还需要客户手动下载安装 Agent,这对于 ECS 服务器数量多的客户是工作量很大的,可以做得更加自动化。

阿里云的云监控会提供更多服务,同时也欢迎第三方能够针对阿里云开发一些高级的监控。目前市场上已经有客户自己安装了第三方监控可以在阿里云上使用,包括商业监控软件和开源监控软件对阿里云资源的监控,也有客户自己订阅了监控 SaaS 服务来监控他们跑在阿里云上的应用,包括一些国外的 SaaS 监控(如 New Relic)。

阿里云的云监控提供 OpenAPI,目前已经在针对小部分可信用户进行内测。内测资格目前只有经过单独审批才能拿到,主要针对企业客户。因为 API 涉及到权限、流量等安全因素,所以这方面会非常谨慎的逐步公开,一方面要借助内测用户的尖锐批评来改进,减少 bug、提升用户体验,另一方面也需要把文档更加完善起来,具体的时间表尚未确定。

总结

阿里云是非常技术的产品,但归根结底是为了让客户用的爽,解决客户的问题。阿里云总裁菲青经常带阿里云的管理者去跟客户沟通,管理者也被鼓励尽量带着一线员工出去了解客户。现在每次阿里云发新的 feature 之前,产品经理都会先把 demo 发到客户群里,这样在上线之前就能收集到部分反馈。今年 9 月初,阿里云管理者大会上搞了“火线 24 小时”的活动,全员自由组了几十个队伍去研究客户工单,在 24 小时内针对工单内容设计解决方案,最后选拔出来的 8 支队伍提供的方案在大会上讲演之后立刻往下迭代,不需要立项、审批、排期。这样的活动还会不定期的搞下去,只要客户有问题,阿里云就有动力持续的努力解决。

做阿里云,技术上固然有很多挑战,但最大的挑战还是对客户的理解。因为业务是很丰富的,比如客户提一个要查看某一个监控项比如缓存命中率的需求,我技术上实现不难,但做出来的东西未必是客户想要的,客户可能查看数据主要的目的是找到应用出了什么问题,具体观察的时间,观察到以后如何处理。唯有真的去客户那里和客户交流,深入了解客户使用的场景,了解客户的痛点,才能做出真正满足客户需求的服务。

工单,论坛都是是很重要的产品改进输入,我们的产品经理和管理者会认真看工单,不断转化为产品改进。恳请大家把您的问题告诉我们,“向客户学习,陪伴客户成长”是我们的理念。

2014-10-14 20:0611974

评论

发布
暂无评论
发现更多内容

VMware 用户如何应对订阅制涨价?超融合能否成为最优替代方案?

智驱前线

解决观看刺眼问题的舒适型LED显示屏

Dylan

广告 广告业 LED LED display LED屏幕

AI智能体开发的需求整理

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI技术应用

Text2SQL准确率暴涨22.6%!3大维度全拆

京东科技开发者

求职必备!常用拖Offer话术总结

王磊

InQL Scanner:GraphQL安全测试利器

qife122

graphql Burp Suite

AI智能体的技术方案

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI技术应用

虚引用GC耗时分析优化(由 1.2 降低至 0.1 秒)

京东科技开发者

突围能源管理难题:MyEMS 开源方案的实战智慧

开源能源管理系统

开源 开源能源管理系统

基于开发者空间,实现仓颉 – C跨语言编程控制台小游戏

华为云开发者联盟

云主机 仓颉 华为开发者空间

Amazon Q Developer 结合 MCP 实现智能化云成本分析

亚马逊云科技 (Amazon Web Services)

1688店铺订单API秘籍!轻松获取订单列表订单详情订单物流数据

tbapi

1688订单接口 1688店铺订单接口 1688店铺订单详情接口 1688店铺订单列表接口

跨集群搜索在安全应用中的配置指南

qife122

机器学习 跨集群搜索

大数据-67 Kafka 分区分配策略详解与实战:Range、RoundRobin、Sticky 全面解析

武子康

Java 大数据 kafka 分布式 消息队列

移动端动态化范式重构:技术演进驱动生态中枢崛起

xuyinyin

vivo Pulsar 万亿级消息处理实践(4)-Ansible运维部署

vivo互联网技术

大数据 pulsar 自动化运维 分布式消息中间件 消息处理

从VMware到国产超融合:解析企业虚拟化转型的必经之路

智驱前线

vmware 国产超融合

1688图片搜索API秘籍!轻松获取相似商品数据

tbapi

1688API 1688图片搜索接口 1688拍立淘接口 1688图片api 1688以图搜索接口

大模型给产品研发带来的生产力提升有哪些?

思码逸研发效能

研发效能 研发效能度量 智能编程 AI编程 思码逸

AI智能体的开发周期

北京木奇移动技术有限公司

AI智能体 AI技术开发 软件外包公司

Cookie、Session、Token、JWT 是什么?万字图解带你一次搞懂!看完这篇,你连老奶奶都能教

左诗右码

星空开源MES(万界星空科技)——专业、通用、开源、免费的MES系统

万界星空科技

开源软件 mes 开源mes mes源码 万界星空科技mes

本地Linux环境连接管理开发者空间 - 云开发环境

华为云开发者联盟

云原生集成开发环境 Linux、 华为开发者空间

基于华为开发者空间-云开发环境,部署Jupyter Notebook

华为云开发者联盟

Jupyter Notebook AI+ 华为开发者空间

基于开发者空间OpenGauss数据库SMP并行技术的实现与应用

华为云开发者联盟

opengauss 华为开发者空间

区块链U卡APP的外包开发

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发公司

海外舆情监测如何成为品牌建设的“导航仪”

沃观Wovision

企业出海 海外舆情监控 沃观Wovision

利用BERT模型提升语音识别重排序效果

qife122

深度学习 语音识别

使用Jekyll Bootstrap快速构建静态博客

qife122

ruby 静态站点

.NET AI强势崛起

秃头小帅oi

【灯塔计划】 浏览器崩溃的第一性原理:内存管理的艺术

京东科技开发者

阿里云监控体系现状概览_服务革新_sai_InfoQ精选文章