写点什么

又拍云 CDN 全网实时、精准化监控技术实践

  • 2016-01-10
  • 本文字数:1244 字

    阅读完需:约 4 分钟

又拍云如何在国内业界率先做到 CDN 全网实时、精准化监控?就这个问题,又拍云 CTO 黄慧攀于 8 月 25 日在“云头条”做了专题分享。内容涉及监控在云服务中的重要性,以及实现监控性能提升的技术实战方法。

首先,从整体上讲,又拍云的云服务有三块:

  • CDN
  • 云存储
  • 云处理

每个云服务的监控侧重点各有不同。

CDN:监控性能和可用性

又拍云的 CDN 用到了听云(基调)和安全宝、DnsPod 等外围的服务监控。zabbix 是最基础的服务器监控,它的不足之处在于:

  1. 实时性差;
  2. 无法方便的对业务进行监控(需要做大量对接工作)。

Agent 是 又拍云自己写的 shell 脚本,负责从服务器自身内部发现问题,并告警。如:本机的各个业务系统是否在正确运行,和当前服务器连接关键机房的网络质量等。缺点在于如果自身网络出现问题就无法告警,但能根据自己的业务特点,做多种健康检查,比较灵活。

数据中心:自主研发狗眼监控系统

注:标黑色线的,表示该项监控的主要用途

数据中心有两块大业务:

  • 云存储
  • 云处理

去年又拍云用 zabbix 来负责服务器硬件资源的监控,但无法满足需求,所以我们又拍云自己开发了一个系统,命名为“狗眼系统”,来专门做服务监控。它可以监控到又拍云某项具体服务:

  • 吞吐量
  • 平均处理耗时

更重要的是,它能做到秒级告警,又拍云数据中心每个子业务都做了狗眼的接入,以保障整个平台的稳定性。

举个例子,某个客户上传一个图片,并要求做缩略图存储。这会牵扯到几个业务系统:

  • API;
  • 云处理;
  • 云存储。

如果上传失败,或者上传很慢,以前又拍云通过 zabbix 观察哪台服务器压力大,非常麻烦,在集群服务的情况下单台服务器根本不反映集群的服务状态。

而在开发出狗眼监控后,又拍云能准确的判断到哪个子业务的负载有问题,影响到了整个业务流程,比如:云处理环节出问题了,影响到整个文件上传速度。 狗眼会根据历史情况,判定当前这秒的数值是否偏差,异常,并做出告警。又拍云的工作人员马上检查云处理这个服务集群的状况,了解是否因为当前的处理量过大或者网络读写等情况导致。

狗眼系统从 2013 年 12 月开始开发,耗时 1 周。用了将近半年时间连接 又拍云服务。“狗眼”有 20w 个 UDP 包的处理能力,有了狗眼系统,又拍云从原来的盲人摸象,进化为具有敏锐的“嗅觉”。能快速准确的定位为问题。

日常监控:实时日志分析系统

另外,又拍云还有实时日志分析系统。有些具体的错误信息需要在日志里面体现出来。日志分析系统无法做全量,一般 200 OK 正常的请求日志没必要记录和处理的,又拍云只处理 code & 400 的记录。

有这么多个渠道给出告警信息,还得避免狼来了的情况发生,对告警进行去重、筛选非常重要,黄慧攀将监控分了主要的 2 种角色,互相配合一起来做告警,方便维护。

这些监控最有用的是历史数据,在上面可以分析出异常,如又拍云针对全国机房的链路情况,每 10 分钟采一次样,采集到的数据加以处理总结出一些规律,如有些机房在晚高峰的时候会总出口拥堵而导致性能下降。更细致的观察需要根据节点的服务日志记录分析,如平均下载速度,下载速度大于 10mbps 的比例,回源慢的影响比例等。

2016-01-10 01:031685

评论

发布
暂无评论
发现更多内容

用户的声音 | 文档结构化信息提取方案测评:LLM、开源模型部署与云端API,谁是合适选择?

合合技术团队

#大模型 文档解析 #数据

澜舟智搭×DeepSeek:企业智能体平台全面升级,打造AI Agent应用新范式

澜舟孟子开源社区

人工智能 DeepSeek DeepSeek v3 DeepSeek-R1

Autodesk AutoCAD 2021(cad 2021)中文序列号分享

Rose

DeepSeek:探索AI辅助创作的无限可能

测吧(北京)科技有限公司

测试

【GreatSQL优化器-14】直方图应用

GreatSQL

优化器 直方图

AI与低代码结合:中小企业的技术弯道超车之道

天津汇柏科技有限公司

AI 低代码

文献解读-Thiabendazole Inhibits Glioblastoma Cell Proliferation and Invasion Targeting Mini-chromosome Maintenance Protein 2

INSVAST

肿瘤测序 Sentieon GATK 基因变异检测 生物信息分析服务

AI工作流程开发框架

北京木奇移动技术有限公司

AI智能体 软件外包公司 AI流程

告别混乱!浩辰CAD看图王让项目管理井井有条

在路上

cad cad看图 CAD看图王

《Operating System Concepts》阅读笔记:p41-p49

codists

操作系统

云上玩转DeepSeek系列之三:PAI-RAG集成联网搜索,构建企业级智能助手

阿里云大数据AI技术

人工智能 LLM rag PAI DeepSeek

终于搞懂MES和WMS系统的区别了

积木链小链

数字化转型 制造业 wms mes

Svelte 最新中文文档教程(12)—— 样式

冴羽

vue.js 前端 React Svelte SvelteKit

龙伯透镜天线 --- 空间变化介电材料【CST仿真案例】

思茂信息

cst cst电磁仿真 CST软件

Java Stream API:每个开发者都应该知道的 3 件事

码界行者

Java

想在M1上运行安装iOS软件怎们办?

Rose

等保三级测评流程解析以及相关问题解答

行云管家

等保 等保测评 等保三级

利用TencentOS 在企业私有化场景中快速部署DeepSeek

TencentOS

Linux 操作系统 DeepSeek TencentOS

越“挖”越有料,天翼云“息壤”助攻DeepSeek变身万能搭子!

天翼云开发者社区

人工智能 算力 AI应用 DeepSeek

解读TaurusDB二级分区,如何提高查询性能和管理效率

华为云开发者联盟

MySQL 数据库 TaurusDB 分区表

苹果虚拟机软件VMware Fusion Pro 13 密钥,VM虚拟机下载安装

Rose

AI 聊天机器人开发框架及其特点

北京木奇移动技术有限公司

软件外包公司 AI机器人 AI聊天

零信任供应侧稳步发展并持续创新

芯盾时代

身份安全 零信任 统一身份管理平台

CAD神器来了!让你的CAD标注效率翻倍

在路上

cad cad看图 CAD看图王

又拍云 CDN 全网实时、精准化监控技术实践_音视频(后端)_UPYUN_InfoQ精选文章