阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

黄慧攀:日均 2000 亿条日志的处理智慧

  • 2016-11-15
  • 本文字数:5676 字

    阅读完需:约 19 分钟

Tech Minds 是又拍云主办的高端技术领导人私享会系列活动,先后在深圳、广州、北京成功举办,凭借私密的分享环境、高质量的对话嘉宾、前沿的行业和技术话题,又拍云 Tech Minds 已经成为技术圈子中非常受欢迎的“思想汇”活动。9 月 22 日,又拍云 Tech Minds 首次进入上海,就“做追求极致用户体验的偏执狂”的交流主题展开了激烈的讨论。

又拍云 CTO 黄慧攀在 Tech Minds No.4 上做了“访问日志的大数据分享应用”的主题分享,介绍了又拍云在访问日志方面的管理和应用方法。

又拍云目前在全球范围内部署了 4000 多台服务器,一天要产生 2000 多亿条日志,在庞大的数据量下,又拍云采取了快捷的日志管理方式,在处理日志数据时,先对日志进行预先合并计算,再存入 ELK,将记录数量压缩了 1000 倍,大大降低了海量日志数据对服务器的压力。

黄慧攀以又拍云日志系统为例,详细介绍了又拍云如何从日志信息中提炼出全网汇总数据、客户使用情况、服务健康信息等关键信息,随时感知客户的变化,快速定位问题。

以下是黄慧攀的分享全文。

大家好!我今天跟大家分享的是访问日志的大数据分析和应用。

其实在座各位都是做了好多年的技术,所以对业务里面日志的价值都会非常熟悉,所以我今天做的这个纯粹是向大家介绍一下我们又拍云是怎样做的,以及我们在这方面能够获得哪些成果,供大家参考一下,可能会从中得到有价值的东西。也请帮助我们发现做得不够好的地方。

下面两图分别是原始的日志,和格式化之后的日志,我们可以看到这一条日志里面有那些数据。在格式化的日志里面,我们注重的主要是把数据里面每一个字段的价值给提炼出来。

日志隐藏的数据价值

在我们刚才看到的那条日志里面,有客户端的访问 IP,但是如果我们只拿一个 IP 的话,其实完全看不出来它是什么东西。

又拍云会通过 IP 解析出来它的归属地和 ISP,才能知道这个用户到底是哪里的,才能准确地分析到我们影响到了哪里。比如说广东或者北京,是电信还是联通。

在请求的地址这里面,我们会提炼出来一个域名。又拍云做 CDN 业务,每一个域名要对应到不同的客户,所以这个对于我们来说价值点是非常大的,因为我要知道影响到的是哪一个客户、哪一个域名。对于单个公司来说,可能这个价值并不是特别大。但是通过这一点,可以分析出又拍云到底哪一个子业务出问题了,因为一般开发一个 App 或者网站的时候,我们也会用到多个域名。比如说 Api.huaban.com、Image.huaban.com 这样。当我们去看整体速度的时候,由于它是一个平均速度,所以看不出来到底哪一个业务受了影响,但我有了这个维度之后,我就可以看到 API 这里面是不是平均的、哪个速度出问题了,就可以准确地定位到那个影响面在哪里。

对于状态码,我们最主要是用来分析到底有没有出现什么大面积的故障,像 200、404,这种是比较正常的,那如果是 50X 的这种错误的话,就是我们的业务出现了问题,我们后端的系统就需要排查到底哪一个子系统出了问题。

服务器端吐出的字节数,对于我们网络传输这一块的价值比较大,因为我们可以通过这个去计算出一个平均的下载速度。

Content type 是资源类型,后面的那个是请求号,这也是非常重要的一个点。我的资源吞吐到客户端是多少,跟吞吐的字节数一除,就可以得到速度的数值。

日志存储,not only ELK

我们又拍云有 150 多个结点,4000 多台服务器。平均每台服务器日均产生近 5GB 压缩日志。简单计算一下,我们一天至少要产生 2000 多亿条日志,这是一个非常非常庞大的规模。

我们在处理这么多日志的时候,针对不同的统计需求、分析需求,做了四套分析的系统。

大家接触较多的是第一种类型,第一种就是我们很普通的 ELK 方案,我们用了 50 台这种高性能、大容量存储的服务器去做集群,处理原始的日志。由于刚才说到的那个日志量,量级太大了,这个集群只能存两天的数据。并且这两天的数据,查询起来的时候也比较吃力。这是用来给我们的某一个业务,比如客有一个请求,出现了 50X 的错误,那要去排查的话,需要快速定位,我可以在这一个集群里面通过 Request Id 马上找到这一条日志,它的价值点在这里。我们还会其他需求,比如说客户要下载他的全网访问日志。

所以我们做了第二个集群,在这一个集群中,我们服务器的数量明显少了很多,才 4 台,4 台高性能的服务器组成了日志下载的处理集群。这个集群可以做到一小时以内,下载前一个小时的全网日志,并且下载的日志是做了全网排序,按照时间排序。最大的延迟是 8 小时就可以看到昨天一整天的统计分析。

第三个场景是我们需要对网络做一些性能的分析。在这里,我们只用了一台普通的服务器去做,接收所有节点上面二次处理后的数据,并且可以输出到全网的节点质量报告,还可以存一个月的历史数据。历史数据是我们用来做网络调用的。这里面有一个特点,就是我们这台服务器,它压根儿没有做任何数据处理的工作,它只是做存储,还有后面的展现。

第四个,我们有一台普通的服务器。接受所有节点的二次处理的数据之后,并且输入到 ES,在这个 ES 里面,再输出多种维度的分析数据。后面的这两个将会是我们今天分享的重点,就是如何使用最少的资源达到我们需要的那个效果。

我们刚才主要在说怎么能够分析这么大量的日志,并且从这些日志里面提炼出它们的价值来。这里刚才提到了,我们会用到 ELK,但是我们普通的用法可能就只有 ELK 了,就像刚才提的那四个解决方案里面的第一种,这 50 台机器组成的一个大集群,把所有的原始日志都灌进去。但是它有明显的缺点,就是它要存的数据量实在太大,集群规模会非常庞大。我当时在北京做这个分享的时候,京东那边数据分析的朋友跟我们交流,他们是用一百多台高性能大容量的服务器组成了 ELK 的集群,来做这样一件事情。

但是我们要做的这个事情,如果仅局限于 ELK 的话,会付出非常大的成本。所以说我们“not only ELK”,还需要一些我们自己加上去的东西,才能把它管得更好。这个就是我们今天所要讲的重点。

又拍云 ELK 解决方案:1000 倍压缩效果

在又拍云 ELK 解决方案里面,ELK 它只不过是一个存储容器、展现数据,并不是我们整个解决方案里面的全部。

又拍云有一个天生的优势——在边缘有几千台服务器。每一台服务器它所产生的日志,就是一个数据源。我们可以把一些计算放到这个边缘上面去。每一台服务器我们都会有中间计算的逻辑,把日志以及日志需要提炼的点直接在本机上面做掉。这样可以加快我们数据产生的速度。

这些数据会汇聚到我们的数据中心里面,同时做一个二次的处理。有一些数据维度是针对整个节点的,所以我们在这里有一个中间层,把这些数据收集回来之后还会做一个跨节点的合并计算。这样得到一个二次计算的结果,之后才会存入到我们的 ES 里面。ES 存进去了之后,它其实就可以做出丰富的数据展现,还有做更多的,比如说监控这种事情。

接下来我说一下,我们在边缘里面进行二次处理的逻辑,我们在边缘每 5 分钟会切出一个 NGS 的访问日志文件,切出来的同时,会启动计算逻辑,这个计算逻辑在每一台机器上面都有。在这里主要是有一个合并计算,以及多维度的数据提炼。多维度的数据提炼,比如说 IP 归属地、线路、访问域名、对应客户等。这些业务逻辑都会在前面的边缘节点去完成。根据这一个 5 分钟的日志,它统计了一下之后,会合并生成一份二次处理后的数据,然后再以 JSON 的格式传到在数据中心的这个接收服务器里来,然后它再合并一下,以 JSON 的格式存到 ES 里面去。

纯裸日志数据存到集群的话,性能非常低,并且服务器的资源占用也很高,对于你的公网带宽,还有延时的挑战都很大。但是把日志进行预先的合并计算之后再存到 ELK 里面,记录的数量级别压缩了 1000 倍还不止。具体得看业务产生的原始日志量有多少。因为它不是线性增长的,它的倍率并不随着你的日志量线性增长,它只会随着你平台里面节点的数量增多而增长。在这里面,一台服务器,5 分钟跑 1000 个请求,产生的二次处理是一条。跑 10000 万个请求,出来的二次处理结果还是一条。所以说它不是一个线性的增长,日志数量越大,起到的压缩效果会更强。

日志提炼后的价值

这些数据存到 ELK 里面,读取性能很高,秒级别就可以读取到统计结果。如果使用传统的 50 台机器集群,如果要看前面一个小时的统计数据,估计得等个几十秒,甚至几分钟。
原始日志只有基础的信息,需要二次提炼才能把价值给提炼出来的。针对于又拍云的业务来说,需要提炼 IP 归属地、服务节点信息、服务状态、缓存命中率、路由状态等,其他业务或许会需要慢日志等信息。日志里能提炼很多有价值的信息,比如说 slow 是在哪一张表里、集中在哪一个字段里。这种我们都可以把它分析出来放到 ELK 里面,然后可以很直观地看到业务性能的瓶颈在哪里。

这里还有一种更简单的办法——用 APM。但是我们做技术的可能都会想,这个 APM 可能跟我们业务的吻合度不高,用 APM 这些系统去定制一些逻辑会比较困难。如果我们是自己去做原始日志的价值提炼,才能最清楚应该提炼哪些东西,也就可以很方便的做到这种操控。
用又拍云非常简单的一条 Nginx 日志举例说明一下,经过二次处理和价值提炼之后,我们得到了哪些有价值的信息。

全网汇总信息

这个是我们全网的汇总信息。在这里我们可以看到全网的总带宽情况、全网平均下载速度、全网下载速度各个区间的比例。我们把区间分成 100K 到 500K,1M,到 2M、3M、4M 这样,每一个下载区间的比例都可以很方便地看出来。右边会有一个地区的带宽占比,哪一个地区的带宽使用量是最大的,一目了然。

客户使用情况

我们可以实时地看到又拍云平台里面大客户的分布情况。具体某个客户使用的网络覆盖信息,也可以在这里面得到非常有效的展示。如果突然之间有一个大客户要加入又拍云平台,这个系统可以马上感知到,因为这个图表是每分钟刷新的。

服务健康监控

又拍云服务的健康检查,可以针对到某一个域名上面,可以看到它的全网状态,吞吐到底是 200 OK 为主,还是说出现了 50X 的错误。在这一个页面能够比较快速地查看到各类问题。

又拍云有两类客户,一种是有用到又拍云存储的,还有一种是自主源站的。

如果是用我们云存储服务的,那在左一的饼图里面,我可以看到到底哪一个节点出现的错误数据比较多,可以非常快速地定位到全网里面是不是有一个节点出现了故障。

通过右边的饼图,又拍云可以很迅速地定位到客户的哪个源站出了问题。监控部门的同事看到客户的状态异常,马上主动联系到我们的客户,告知他们的源站出了问题。

业务数据分析、合理调度资源

通过提炼日志数据,我们还可以进行业务数据分析。比如根据客户端地域、ISP 去查看 CDN 的服务情况。我们现在比较关注的是有没有做跨节点的覆盖,在这张图里就可以定位准确定位到,就是说我要看一下上海电信到底用了哪些节点去覆盖。在这个饼图里面,可以很准确地看到其实只用了两个节点,并且两个都是上海电信的节点。饼图里有非常细的紫色区域,如果这个紫色区域的比例比较大的话,就是一个异常的情况,说明我们的 DNS 解析准确度不高,或者说调度策略出问题了,把外面的那些节点弄给上海电信的用户去访问了。

这些数据信息是我们资源调度的一个依据。比如说我们现在要覆盖新疆,但是又不知道新疆的用户有多少,他们需要多少带宽。放在以前,只能盲目地提需求——我要覆盖新疆电信,你去找个节点。找个节点,是多少带宽呢?不同的带宽,采购的成本是不一样的。有了这个数据之后,我们就可以做出很准确的决定。根据全网的日志统计,新疆电信会用到 2 到 3 个 G 的带宽,并且这个是准确的数据。我可以提供准确的需求给我们采购的同事,说我要 3 个 G 的带宽,你按照这个需求确定一下采购量。

遇到的难点

以上就是我们又拍云从日志里面提炼出来的一些价值点。而我们在做这个事情的过程中,也遇到了有很多难点,或者说我们踩过的坑,这里可以分享一下。

  • 第一个是性能的问题。边缘有 4000 多台服务器,但不可能说所有的 CPU 计算资源都可以给你去做日志处理。其实每台服务器可能给到日志处理的资源的只有 1~2%。这样的话就对于二次处理的程序的性能要求就会非常高,所以我们采用了在内存中直接做流式的计算。这个对于开发难度的要求是比较高的,但它的性能很高,并且很稳定。
  • 第二个是在接收服务端的合并处理的方案上。又拍云的日志量级非常巨大,不能用一般的方案去做合并统计,比如说用 redis。redis 可能大家都认为是非常快的一个解决方案,它的性能已经非常高效了。但是在又拍云的日志场景里面,完全不能用 redis。我们主要是用共享内存去做数据统计,直接在程序里面使用内存跟使用 redis 去做计算,它们的性能差距是千倍万倍以上的——因为我们没有任何网络 IO 的产生。我用 redis 的话,起码要产生 1、2 个网络 IO,1 个网络 IO 最快都要 1、2 毫秒;但是在内存里面是纳秒,两者完全不在一个级别。
  • 第三就是程序化的自动清理历史数据,这个是我踩坑最多的地方。现在我写了一个自动化的程序去自动做历史数据的清理,在整个集群里面,数据是落到每一块磁盘上面的,每一块磁盘都会按照我的节奏,比如说今天落到 A 盘,第二天落到 B 盘。但是在清理逻辑里面,要有一个自动化的过程,就是说 A 盘的容量已经超过 90% 了,就要自动的在 A 盘里面删掉某一天的数据,把这个阈值永远控制在 90% 以内。有了自动化清理之后,就不会出现这个磁盘爆了而影响到整个集群服务的情况。一块磁盘爆了,会导致整个查看、统计出现问题,这里要强调一下,自动化的历史数据的清理的重要性。

刚才说的,在内存里做流式计算是我们整个体系里面最重要的一个环节。如果我们用开源的那些解决方案,比如说 redis,其实它的性能是非常低的,完全不用去考虑。如果它是用 java 去写的,那也不用考虑了,因为它完全没有达到这种量级的要求。

只有我们做到原生的,对日志文件不需要做解压,就能去分析、统计里面的数据,这样才能达到高的性能。这个方案对于磁盘的要求还不高,因为完全是流式处理,不会说把一个压缩日志文件解压到磁盘里面,然后再从磁盘里面读出来,然后再去统计分析。像 Hadoop 这样的方案,都是面临这个问题的,就是说这个日志文件必须是解压一下,放到集群里面,然后再做统计的分析,所以 Hadoop 的性能没办法提高到这种级别。

2016-11-15 02:461764

评论

发布
暂无评论
发现更多内容

惟客数据“惟客云”升级:稳操胜“券”,助力商家精准营销

科技热闻

阿里巴巴集团副总裁贾扬清-一个AI开发者的奇幻漂流

大咖说

带你认识传统语音识别技术

华为云开发者联盟

语音识别 语言模型 声学模型 隐马尔可夫链 WFST解码

前端培训:React Native 开发过程中遇到的坑

@零度

前端开发 ​React Native

Stellantis集团将于2022CES展期间召开网络直播发布会

InfoQ_967a83c6d0d7

docker

Docker jenkins pipeline

使用APICloud开发app的性能提升实践

YonBuilder低代码开发平台

android APP开发 APICloud 跨端开发 app性能

自创解法!setTimeout+Promise+Async输出顺序?简单的一匹!!

Sunshine_Lin

面试 前端 ES6 Promise Async

HBase 优化如何操作

编程江湖

HBase

React 中五种常见的使用样式

编程江湖

React

Greenplum 内核源码分析 - 分布式事务 (五)

王凤刚(ginobiliwang)

源码分析 greenplum 分布式式事务

百度飞桨EasyDL桌面版正式上线,没网也能训练AI!

百度大脑

人工智能

在线JSON转HTML,TABLE表格工具

入门小站

工具

多种网络设备的优缺点及网络故障的排除方法

恒生LIGHT云社区

故障 网络设备

书单 | 2021年度经典畅销佳作盘点!

博文视点Broadview

如何解决JDBC死链接导致NIFI线程假死

编程江湖

甲方,你们愿意被乙方侮辱吗?

码农一米

云计算 云服务

云计算厂商们,你们辜负了中国的用户

码农一米

云计算 云服务

【直播预告】全国人工智能大赛赛题讲解直播来啦!1月6日晚20点,不见不散!

OpenI启智社区

人工智能大赛

网络安全好学吗?手把手教你学metasploit 网络安全工程师学习资料汇总

学神来啦

绥北人民法院:用宜搭打造“线上法庭”,让群众少跑腿

一只大光圈

低代码 数字化转型 法院 钉钉宜搭

基于机器学习和TFIDF的情感分类算法,详解自然语言处理

华为云开发者联盟

自然语言处理 机器学习 算法 TFIDF 情感分类

Java开发之SSM框架整合配置知识分享

@零度

ssm JAVA开发

Dumpling 导出表内并发优化丨TiDB 工具分享

PingCAP

安装VTK配置出现错误

Ayosh

qt

Linux之目录结构

入门小站

VRAR产业峰会暨第二届华为VR开发应用大赛颁奖典礼在和平区成功举办!

华为云开发者联盟

云计算 5G AR 华为云 vr

大数据培训:hadoop中shuffle过程面试题

@零度

大数据 hadoop Shuffle

微信小程序获取位置信息

程思扬

小程序 小程序云开发 开发者 开发 小程序生态

“千言”开源数据集项目全面升级:数据驱动AI技术进步

百度大脑

人工智能

2021年度总结,欲望反光

程思扬

经验分享 #总结# 经验总结 盘点 2021

黄慧攀:日均2000亿条日志的处理智慧_语言 & 开发_黄慧攀_InfoQ精选文章