“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

阿里云 PB 级 Kubernetes 日志平台建设实践

  • 2019-04-23
  • 本文字数:3833 字

    阅读完需:约 13 分钟

阿里云PB级Kubernetes日志平台建设实践

前言

阿里云日志服务是阿里集团针对日志分析、处理的自研产品。Kubernetes 近两年来发展十分迅速,已经成为容器编排领域的事实标准,但是 Kubernetes 中日志采集相对困难,阿里云日志服务技术专家元乙即将在 QCon 北京 2019 分享Kubernetes 日志平台建设最佳实践,借此机会我们采访了元乙老师阿里云 Kubernetes 日志平台是如何建设的。

背景

阿里云日志服务是阿里集团针对日志分析、处理的自研产品,最根本的目的是让用户专注在“分析”上,远离琐碎的工作。日志服务整体功能分为 3 个部分:日志采集、智能查询分析和数据分发。相比其他日志系统,阿里云日志服务有以下几个特点:


  1. 采集范围广,支持 30+种的数据采集通道,包括服务器、交换机、容器、移动端、IOT 等各类设备;支持全球加速、断点续传等功能,使全球化数据高可靠采集成为可能。

  2. 数据规模大,支持单用户日 PB 级数据写入,提供数据通道横向自动扩展能力,可根据数据流量进行自动扩容。

  3. 查询能力强,提供 SQL92 标准的分析语法,秒级即可分析 10 亿条数据,同时提供丰富的数据图表,提供所见即所得的数据分析能力。

  4. 下游渠道多,日志服务支持对接各类下游的数据处理、分析系统,包括 Flink、Storm、Spark 等各类流计算系统,同时也支持 Hadoop、MaxCompute 等离线分析系统。


Kubernetes 日志采集难点                                     ​

Kubernetes 近两年来发展十分迅速,已经成为容器编排领域的事实标准。Kubernetes 是一个大的生态系统,围绕着 Kubernetes 我们需要去解决很多问题,例如 CI/CD、可扩展性、安全性、可观察性等等。日志是可观察性中必不可少的一部分,而在 Kubernetes 中日志采集相对更加困难,难点主要体现在:


  1. 采集目标多,Kubernetes 平台运行着多种系统组件以及众多应用,这些日志由多种日志格式(分隔符、json、Java、Nginx 等)和多种日志形式(宿主机文件、容器 stdout、容器文件、syslog、journal 等)组成,通常主流的 Agent 很难支持各种数据的采集。

  2. 环境动态性强,在 Kubernetes 中,各类服务都会进行自动的缩扩容,应用也会进行动态迁移,日志采集很难适应环境动态性强的系统,尤其是日志的完整性很难得到保证。

  3. 使用负担大,随着集群规模、使用人数、应用种类的逐渐增长,日志采集的集中式管理、采集可靠性的监控等需求就显得尤其重要。更进一步,如何基于 Kubernetes 的扩展能力让日志采集也能和 Kubernetes 资源一样进行统一的管理?

阿里云 Kubernetes 日志平台的整体功能和核心技术


                                        ​       


阿里云 Kubernetes 日志平台为 Kubernetes 日志提供接入、查询、分析、可视化、下游对接等日志分析整个生命周期的完整方案,并针对 Kubernetes 的组件日志提供通用的解决方案,例如审计日志、Ingress 日志、系统组件日志等。这里的核心技术主要有以下几点:


  1. 全方位日志采集,能够支持 Kubernetes 各类日志的实时采集,并兼顾低资源消耗、高性能、高可靠性。同时基于 CRD 扩展,实现采集与 Kubernetes 的无缝集成。

  2. 超大规模数据量,Kubernetes 可轻松管理数万台机器的集群,日数据量可能会达到数百 TB 甚至 PB 级,日志平台能够支撑海量的数据规模,同时保证可扩展性和可靠性。

  3. 实时分析能力,日志最常用的场景是监控和问题调查,因此实时的查询/分析能力尤其重要,平台能够在秒级内实现对亿级数据任意条件、任意维度组合的分析。

  4. 超高性价比,针对日志特点进行针对性系统优化,降低海量数据的存储、处理成本,最大化利用机器资源,在成本控制上对开源方案形成压倒性优势。

  5. 通用方案打通,基于日志平台的通用能力,对 Kubernetes 的通用方案进行整体封装,并打通采集、存储、分析、可视化、告警等整个流程,实现通用方案的开箱即用。

平台设计难点

阿里云在通用日志平台的建设方面有着 10 年的经验,针对 Kubernetes 场景平台整体的复杂性增加很多,难点主要有:


  1. 支持各类采集需求,需支持采集多种日志形式和日志格式,不同的使用场景对日志采集的需求不同,需要保证数据采集具备高可靠、高性能、低资源占用、可监控的能力。

  2. Kubernetes 集成,日志的采集和管理需要和 Kubernetes 平台进行无缝兼容,因此需要提供 CRD 的扩展方式,尤其在多种方式同时操作、集群不可用等复杂场景下,CRD 与服务端的同步与协调关系较难维护。

  3. 多租户隔离,Kubernetes 日志平台的使用方较多,平台需保证从日志采集、处理、查询、消费等各个环节的多租户隔离,不能让部分用户的大量请求或非法使用而导致整个集群不可用。

  4. 超大流量压力,在阿里内部,即使最大规格的 VIP 也无法承受所有日志的流量,双 11、春节红包等流量高峰瞬间可能会打爆集群,因此减少数据回路、削峰填谷、降级方案、系统兜底方案等尤其重要。

日志数据的使用

Kubernetes 中存在各种日志,包括内核日志、系统组件日志、Ingress、ServiceMesh、中间件、应用日志等,每种日志都会有不同人员在不同的场景中应用。例如 APIServer 的审计(Audit)日志,安全同学会用来做入侵检测、账号操作审计等,运维同学会基于审计日志做变更管理、核心组件监控、节点监控等,开发同学会使用审计日志检查变更是否生效;例如 Ingress 的访问日志,运营同学会用来做用户行为分析、业务走势分析、运营检测等;运维同学会用来做集群/服务监控;开发同学会基于 Ingress 访问日志进行发布前后的指标对比…


从日志平台角度来看,平台需要为不同的业务角色、不同的使用场景提供通用的数据处理/分析能力,包括但不限于:智能分析、链路跟踪、监控、数据清洗、流计算、数据仓库、安全分析、BI 分析等。



                                       ​

Kubernetes 日志平台与可观察性的关系

“可观察性”(Observability)从电气角度上的解释是:“若所有的内部状态都可以输出到输出信号,此系统即有可观察性”。CNCF-Landscape 首次将“可观察性”(Observability)引入到了 IT 领域。可观察性相关的工具主要包括 Logging、Metric、Tracing 三大类,这三者之间有很多重叠部分,从表现力上来看,Metrics 最弱、Tracing 其次、Logging 最强。Metric 主要记录了一些聚合的指标信息,例如 CPU/Mem 利用率、请求成功率、请求延迟等;Tracing 记录从请求发起到响应完毕的整个流程;而日志相对范畴最大,日志记录了系统运行期间所有的信息,而从日志的字段中可以聚合出 Metric、从日志的 RequestID 中可以提取出整个 Tracing 链路。


在 Kubernetes 中,通常通过 Metric 发现问题,然后通过 Tracing 定位问题模块,最后根据日志中的详细信息诊断错误。而在阿里云 Kubernetes 日志平台中可通过智能分析的功能直接基于日志发现、定位并诊断问题,大大减少问题调查时间。智能分析的能力主要有:


  1. 日志聚类,根据日志的相似性进行智能归类,秒级即可实现亿级数据自动归类,快速掌握日志整体状态。

  2. 异常检测,基于变点检测、折点检测、多周期检测、时序聚类等机器学习方法,自动检测时序中的异常。

  3. 日志模式对比,通过前后两个时间段/版本的日志模式对比,快速发现当前时间/版本的日志差异。

  4. 知识库匹配,将问题调查经验以知识库形式保存下来,将日志与知识库内容进行匹配,快速得到具体日志对应的问题和解决方案。



                                     ​

阿里云 Kubernetes 日志平台的借鉴意义

阿里云 Kubernetes 日志平台建设过程中考虑的很多问题对于大家都有一定的借鉴意义,例如:


  1. 采集方案选择,Kubernetes 中采集通常会使用 DaemonSet 和 Sidecar 两种方式,日志也会分为 stdout 和文件两种形式,文件也分为容器内文件和宿主机挂载文件等不同方式,需根据业务场景特点选择合适的日志采集方案。

  2. 平台高可用建设,随着应用场景的逐渐扩展,对于日志平台的可用性要求也越来越高,我们在高可靠日志采集、日志平台自监控、异常自动屏蔽与恢复、高效运维等方面积累了很多宝贵的经验与教训。

  3. 生态对接,平台不可能实现日志生命周期中所需的所有系统和功能,很大一部分功能需要上下游的生态来完成(例如流计算、离线计算、Trace 系统、告警系统等),因此生态的对接成为了日志平台能够覆盖所有日志场景必不可少的一个部分。

  4. 性能与成本取舍,成本是每个公司都需要考虑的一点,通常日志的开销只占 IT 支出的 1-3%左右,日志的采集、存储、查询等各个环节需尽可能的节省资源,同时还需保证整体性能在可接受范围内。


访问 QCon 官网查看大会完整日程,还有更多精细化运维实践、基于机器学习的智能运维实践、全链路日志监控实践等方面的实践等你解锁。


2019-04-23 08:007758

评论 2 条评论

发布
用户头像
大佬又在吹牛B了。没有实质性的工具的使用介绍。例如:你们用什么工具收集 Metrics 。不可能自己造轮子吧,你可以其他公司可没这实力。
2019-05-17 08:38
回复
用户头像
「阿里云 Kubernetes 日志平台的借鉴意义」最后一部分有料,赞。
2019-05-08 20:35
回复
没有更多了
发现更多内容

在算力“沃土”上,种植互联网下一个奇迹十年

芯片破壁者(二十二):政府与半导体间的“美国往事”

脑极体

ES6中的Promise和Generator详解

程序那些事

新特性 ES6 Promise 程序那些事 Generator

你确定你会算数吗?老大说:你连这个都不知道还敢面试电商公司?

小Q

Java 学习 编程 程序员 面试

看完这份文档我吊打了BATJ面试官,他问的我全都会:Spring+逻辑算法+MySQL+Java+Redis+并发编程+JVM+RabbitMQ等

Java架构之路

Java 程序员 架构 面试 编程语言

架构师训练营第 1 期第 13 周学习总结

好吃不贵

极客大学架构师训练营

让你的产品更懂世界:如何提升场景文本识别中的语言模型

华为云开发者联盟

神经网络 文字 语义

升级redhat6的yum源替换为centos源

Bruce Xiong

游戏服务器多钱一个月呢?

德胜网络-阳

一次资源泄露问题排查纪录

AI乔治

Java 架构 JVM 内存泄漏

朋友不讲武德急催我给他Java干货教程,我劝他耗子尾汁并丢给他一份GitHub上标星115k+的Java教程,他看了之后连忙向我道歉!

Java架构之路

Java 程序员 架构 面试 编程语言

synchronized 是王的后宫总管,线程是王妃

Java架构师迁哥

程序员什么时候就该辞职了?

Java架构师迁哥

免费分享!GitHub标星15k的Java编程思想最新中文版,肝了一周整理成1539页的PDF文档!

Java架构之路

Java 程序员 架构 面试 编程语言

9年技术面试官讲解:计算机专业应届生怎样写简历

Java架构师迁哥

【变与不变】架构中的边界划定

soolaugust

编程 架构 设计

Java 并发编程:volatile能否保证数据的同步

码农架构

Java Java并发

盘点2020 | 技术圈里的这些热名词

xcbeyond

微服务 DDD 金融科技 新基建 盘点2020

太狠了阿里技术专家撰写的电子版JVM&G1 GC实战,颠覆了传统认知

Java架构之路

Java 程序员 架构 面试 编程语言

2020年第11期公有云性能评测:盛大云-华东实现“三冠”,百度云虎视眈眈

博睿数据

百度云 腾讯云 阿里云 公有云 华为云

ROS 机器人操作系统进阶实战

Geek_3cc3ec

Python 人工智能 学习 ROS

“懂行人”携手互联网,创造未来无限可能

LeetCode题解:127. 单词接龙,BFS+生成所有可能新单词再匹配,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

架构师训练营第 1 期第 13 周作业

好吃不贵

极客大学架构师训练营

官方活动 | 日更挑战(初阶)——七日更,挑战百元京东E卡!

InfoQ写作社区官方

七日更 热门活动

A Guide for Accidental Project Managers

Geek_ed0696

pmp project manager role of PMP PMP Certification greycampus

云智一体:攀登2021智能经济新山峰

脑极体

“懂行”为舟,助互联网驶向“新蓝海”

字节跳动总监亲自整理,在知乎高达5716赞的Java开发手记。

Java架构之路

Java 程序员 架构 面试 编程语言

Techo | 大数据专场报名盛启!12月20日欢迎莅临!

腾讯云大数据

大数据 数据仓库

校园恋爱新技能:智慧琴房恋爱助攻手册

IoT云工坊

物联网 API sdk 智慧琴房 智慧校园

阿里云PB级Kubernetes日志平台建设实践_服务革新_元乙_InfoQ精选文章