【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

日志监控实践 - 监控 Agent 集成 Lua 引擎实现多维度日志采集

  • 2019-09-11
  • 本文字数:2151 字

    阅读完需:约 7 分钟

日志监控实践 - 监控Agent集成Lua引擎实现多维度日志采集

对于互联网行业来说,最有价值的数据往往蕴含在服务的日志之中。从日志中,我们不仅仅可以获取到服务的使用量、服务效果、问题定位信息等,还可以通过监控系统及时地识别出服务的”健康”状态,规避风险,推动服务优化升级。


在监控系统中,日志处理就是采集服务运行时生成的原始日志,根据用户配置的解析规则,从中提取可用数据,形成监控指标的过程,这个过程一般由监控系统的日志采集 Agent 完成。


通用的日志采集 Agent 一般会提供多种日志解析方法,常用的有分隔符、K:V、正则表达式等。为了适配某些常用的系统或组件(例如:Nginx、Syslog 等),有些日志采集 Agent 还会提供一些预制的日志解析配置,以期达到开箱即用的效果。


百度的业务场景十分复杂,涉及搜索服务、社区服务、金融服务、AI 服务等,这些业务的程序所生产的日志格式存在较大差异,如何统一处理这些不同格式的日志成为一个重要的问题。今天,我们会从百度 Noah 监控平台的角度,讨论如何解决这一问题。

典型日志处理示例

1K:V 日志


如上图所示,这是一个典型的 K:V 形式组成的日志。


我们可以通过简单的分隔符将日志分隔开,并根据 K:V 的式样从日志中提取出 uri、c_time、idc 等监控项。

2 多行日志


这是一个 C++程序的 Stack 信息。需要将多行日志作为一个 Trace 信息进行完整提取,并且将每一行里面的函数名、文件名、行号单独提取,统一推送,用于批量实例的故障定位。


这个例子需要具备两个能力,多行日志处理和单行日志内提取字符串。

3 混合日志


在这个例子中,每行日志混合了服务名、代码位置、用户自定义数据等信息。需要分别用分隔符、K:V 和 JSON 解析的方式进行提取。


针对这些场景,一些开源方案(例如 Logstash,Collectd)通过在配置文件中支持此类语义或插件的方式实现了此类功能。我们参考了这些开源实现,结合百度业务的场景,在监控采集 Agent 上通过日志插件功能实现日志处理需求。


实现插件时,需要重点考虑以下几方面:


  1. 通用性和易用性:需要尽可能满足用户定制化需求, 并且开发简单。

  2. 性能:典型的日志采集场景中,需要每秒处理数 MB 甚至数十 MB 的日志文件,并完成字段切分、正则匹配、数据格式转换等操作,需要处理引擎有较强的性能。

  3. 可用性和安全性:Agent 运行在线上生产服务器上,对稳定和安全有相当高的要求。

Agent 日志插件实现


如何实现定制化的日志解析逻辑很简单。我们封装了 Log 解析类,包含获取单行日志和返回监控项解析结果的接口,供用户自定义日志解析脚本来调用。用户需要在日志解析脚本中实现 Callback 函数,在解析每行日志时,被 Agent 调用。


所有的日志处理逻辑完全在脚本中实现,例如,用户可以在脚本中维护全局 Context,通过 Context 中保存的进度信息,完成多行日志的处理。


这里还封装了通用的日志处理工具库,以 Lua 内置类的形式提供,包含 JSON、Debug 等工具。

可用性和安全

Agent 在所有服务器上运行,可用性和安全性是最重要的考量因素。


可用性方面,主要是避免自定义脚本本身的 Bug 或插件引擎 Bug 导致采集功能异常。除此之外,需要规避资源占用超限导致服务器上其它业务受影响。


对用户代码,需要严格规范资源占用量。执行插件的任务,作为一个单独的进程,使用 Cgroup 和 Ulimit 等机制限制资源占用,同时也作为执行隔离的手段,规避单个脚本或插件引擎的 Bug 影响所有采集任务正常执行。


另外,在任务执行时间上,也由 Agent 加以控制,避免任务超时运行。


安全性方面,自定义日志解析脚本需要配置中心统一托管,避免被篡改。


Lua 本身提供的一些功能也做了屏蔽,例如 io.open/io.popen/os.execute/os.remove 等高危操作接口,避免从脚本调用外部程序,或做出删除系统文件等操作。

增强模式

经过一段时间的线上运行,在某些场景下,日志处理的性能无法满足需求。


对于通用日志采集场景,通过将 Lua 替换成 Luajit,日志解析吞吐量获得约 4 倍的提升,可以覆盖我们几乎所有的通用日志采集场景。替换过程中需要关注兼容问题处理,例如 Regexp 语意和标准的 Lua 并不完全相同,lua_ctx 最大数量限制等等。


特殊的业务需求场景,需要针对性地进行优化。例如,某些业务日志的采集过程中,需要进行 UNIX 时间戳到 RFC 格式的转换、IP 地址到机房信息的转换等操作,在 Lua 脚本中通过查表或进行转换来实现需求的效率非常低。对于这些场景我们使用 C++等语言封装了可以在 Lua 中直接调用的类,有效提升此类操作性能超过一个数量级。这种集成方式也可以用于支持一些定制功能,例如 Protobuf 和 BaiduRPC 变量等信息的采集。


性能方面仍有提升的空间。当前的日志处理是单进程单线程中运行日志处理引擎解决需求,扩展成为多线程,利用并发方式可以有效提升吞吐量。

总结

以上是百度智能运维(Noah)在使用 Lua 实现定制日志采集方面的工程实践经验。工程实现并不复杂,但细节较多,需要严谨的功能设计,编码和充分的测试,保障日志处理过程满足需求、资源合理利用,并提供良好的用户操作接口,逐步积累抽象出更多的通用性插件,降低用户使用成本。


作者介绍:


董涵,百度资深研发工程师,负责百度智能运维(Noah)服务管理和分布式监控架构研发工作,在分布式系统和大规模数据处理、可用性工程方向有广泛的实践经验。


本文转载自公众号 AIOps 智能运维(ID:AI_Ops)。


原文链接:


https://mp.weixin.qq.com/s/yUQYeMYakmKz9pHe9sblwA


2019-09-11 22:361424

评论

发布
暂无评论
发现更多内容

Alibaba最新出版的JDK源码剖析手册(究极奥义版)开源

Java架构追梦

jdk java面试 后端开发

OceanBase 3.2.3 发版|HTAP引擎全面升级,TPC-H性能10倍提升!

OceanBase 数据库

oceanbase

谁在从API经济里分得一杯羹!

Liam

Postman API API Explorer平台 API boy 开放api

中小型企业团队的CRM系统最佳实践

低代码小观

低代码 CRM 客户关系管理 CRM系统 客户关系管理系统

惨遭面试官吊打高并发系统设计,回来学习2400小时后成功复仇

Java架构追梦

Java 后端开发 程序员面试

ETL自动化运维调度管理工具 TASKCTL 流程文件系统

TASKCTL

程序员 DevOps 运维 ETL 大数据运维

淘宝京东优惠券返利机器人

江苏京酷电子商务有限公司

淘宝电商 群聊机器人 返利 采集京东

LAXCUS分布式操作系统:云盘的使用

LAXCUS分布式操作系统

云盘 分布式存储 分布式软件系统

代码历史上最昂贵的 7 个错误

禅道项目管理

测试 代码

Q1手机银行运营报告:交易规模超150万亿,月活跃用户4.9亿

易观分析

手机银行

Spring data JPA实践和原理浅析

领创集团Advance Intelligence Group

工作原理 java Spring JPA

真可笑!拿着这份JVM学习笔记学了2个月,就想着出去跳槽涨10k

Java架构追梦

Java 程序员 后端开发

量子计算是人工智能的未来吗?

海拥(haiyong.site)

人工智能 量子计算 5月月更

易周金融观点 央行设立科技创新再贷款;多家银行下调大额存单利率

易观分析

金融 银行

造孽啊!阿里内部的神级项目和JDK源码阅读指南竟惨遭GitHub开源

Java架构追梦

Java 程序员 后端开发

2022金蝶云苍穹峰会抢先看

金蝶云·苍穹

苍穹峰会 苍穹5.0 人力云

Apache Calcite SQL解析及语法扩展

不穿格子衬衫的程序员

数据库 sql 大数据 flink Apache Calcite

博睿数据获得分布式系统稳定性实验室成员单位证书 亮相全球信息系统稳定性峰会

博睿数据

Tech Talk 宣传 | 如何高效、极简构造无服务器 Web 应用

亚马逊云科技 (Amazon Web Services)

Web

java 通过 SmbFile 类操作共享文件夹

爱好编程进阶

程序员 后端开发

AliIAC 智能音频编解码器:在有限带宽条件下带来更高质量的音频通话体验

阿里云视频云

语音 音频 视频云 音频编码器

为 GPU 而来,焱融科技推出新一代全闪分布式文件存储产品

焱融科技

人工智能 云计算 高性能 文件存储 高计算

使用APICloud AVM框架实现App导航栏菜单

YonBuilder低代码开发平台

APP开发 APICloud avm.js

开源之夏 2022 重磅来袭!欢迎报名 RadonDB 社区项目!

RadonDB

数据库 开源 RadonDB 开源之夏

认清大脑中的一对塑料姐妹花,科学解锁情绪密码

图灵教育

效率 职场 脑科学

2022年4月国产数据库大事记

墨天轮

数据库 opengauss TiDB 国产数据库 达梦

想要成为一名真正的软件工程师吗?加入非凸,一起升级!

非凸科技

招聘 社招 校招 软件开发工程师

易观分析刘怡:技术投入聚焦降本增效,用技术赋能人提升企业能效

易观分析

人口变化 技术赋能

InfoQ AI开发者召集令!快来助力中国AI产业发展,参与抽奖!

InfoQ写作社区官方

AI 热门活动 白玉兰开源

上市商业银行手机银行场景建设专题分析

易观分析

商业银行 手机银行

OneFlow如何做静态图的算子对齐任务

OneFlow

人工智能 graph 自动测试 算子对齐

日志监控实践 - 监控Agent集成Lua引擎实现多维度日志采集_文化 & 方法_董涵_InfoQ精选文章