免费下载!由 O’Reilly 出版的《NGINX 完全指南》中文版已正式上线 了解详情
写点什么

秒 X 平台 - 助力实时分析

  • 2019-09-23
  • 本文字数:2013 字

    阅读完需:约 7 分钟

秒X平台-助力实时分析

1. 背景

随着大数据技术的发展,大规模数据计算能力已不再是瓶颈,用户对于数据处理的时效性、准确性与稳定性等要求在业务发展中日益突出。贝壳找房自研的秒 X 实时分析平台可以满足各条业务线获取实时业务指标进行运营和决策,对复杂业务场景进行高效、精准、多维度组合和细粒度的实时数据监控,针对业务具体关注的指标进行实时监控和报警。

2. 架构


秒 X 实时分析平台架构图

Spark Streaming

目前业界主流的流式数据处理包括 Flink、Spark Streaming、Storm,这几种技术的指标比较如下图:



在我们可接受的秒级延迟情况下,选用 SparkStreaming 能保证较高的吞吐量,且 Spark Streaming 是建立在 Spark 上的实时计算框架,基于 Spark 生态引入成本较低也相对稳定。可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从 Kafka、Flume 等多种数据源获取数据,从数据源获取数据之后,可以使用多种算子进行复杂算法的处理。


秒 X 实时分析平台使用 SparkStreaming 进行数据的解析、清洗、加工。

Druid.io

Druid 是一个分布式的、支持实时多维 OLAP 分析的数据处理引擎。秒 X 实时分析平台使用 Druid.io 进行实时的指标统计、数据分析。我们主要关注 Druid 的如下特性。


  1. 实时分析


Druid 提供了包含基于时间维度数据的存储服务,支持流式数据摄入。支持 TopN、GroupBy、Filter、Count 等即席查询常用方法.


  1. 数据吞吐量大


Druid 可提供 PB 级数据亚秒级查询。


  1. 查询灵活且快


Druid 中数据的聚合粒度可以是分钟级、小时级、日级。部分数据预聚合给 Druid 提供了很大的性能优化空间。Druid 也采用了 Bitmap 和各种压缩技术来优化内存使用。

Elasticsearch

Elasticsearch 是一个高可扩展的开源全文搜索和分析引擎,它允许存储、搜索和分析大量的数据。它通常被用作底层引擎和技术,为复杂的搜索功能和要求提供支持。目前,秒 X 系统采用 ES 进行明细数据的检索。


擎和技术,为复杂的搜索功能和要求提供支持。目前,秒 X 系统采用 ES 进行明细数据的检索。

3. 快速配置

将接入系统的每个数据源(kafka topic)视为一个任务,通过配置系统可将单个 topic 中的每一类日志处理为一个事件。对于每一类业务事件配置解析成一系列字段,并可根据用户需要对解析出的字段进行过滤与转换。最后,配置索引以支持日志检索,配置维度与指标以支持业务指标的查询。

4. 数据处理流程


  1. 数据采集


收集各数据源日志,目前主要接入 kafka,后续公司内部可支持通过域名自动接入。


  1. 数据清洗


实时接收 kafka 中的日志数据,根据用户配置,基于低延迟、高吞吐量的准实时框架 Spark Streaming 进行清洗、转换。处理过的结构化数据将再次发送到 kafka


  1. 数据存储


处理后的数据需要存储在存储引擎中供后续查询使用。主要用到的存储引擎有Druid.io、Hbase、Elasticsearch、Redis



  1. 数据应用


存储引擎中的数据后续应用,目前包括以下几种:


通过数据可视化配置为看板。关注指标、了解趋势


配置报警。当某项指标或组合指标达到报警条件,会通过邮件或短信及时通知


按条件检索明细数据


提供 API 接口,供业务系统获取数据

5. 监控和报警

实时监控报警非常重要,在数据出现异常时能够及时通知业务方快速定位问题。秒 X 平台提供指标聚合与明细检测两种监测方式,按配置的时间片进行定时调度,当拉取到的数据达到用户配置的阈值范围时,采用短信或邮件的方式提醒用户,便于及时发现和解决问题。

6. 可视化

基于已有的数据源,用户可以自助建立 OLAP 分析模型进行 OLAP 分析,选择图表格式、任意时间范围、维度与指标、自定义过滤条件进行可视化分析。可以将自助分析结果保存为报表,多个报表组合成一个仪表盘,供集中展示与分析。

7. 检索

明细检索可以为用户提供交互式 ES 查询。可模糊查询明细日志上下文。

8. 应用实例

安全部门实时数据监控


信息安全作为各大互联网公司关注的重要领域,对实时性要求极高。目前,贝壳找房安全部门使用秒 X 平台底层技术,对安全指标进行实时的监控。安全部门使用秒 X 平台的主要应用点有:


1>域名峰值统计


2>域名实时 ip 访问监控


3>域名访问量实时统计



域名访问量实时统计


kylin 查询时间监控报警


kylin 作为贝壳找房指标平台后端 OLAP 引擎,承载着统计分析、运营报表、指标查询等重要作用。kylin 引擎目前接入了秒 X 平台进行指标监控和异常报警。kylin 引擎在使用秒 X 平台的主要应用点有:


1>监控查询平均响应时间,并对超过 10s 的进行预警


2>各 ip 查询次数的实时统计



kylin 实时监控



kylin 异常报警配置

9. 总结

秒 X 实时分析平台已稳定上线运行一段时间,目前支撑了贝壳找房安全、直营等部门的实时数据分析、监控和报警需求。未来我们将持续优化和提升实时分析能力,简化配置,保证数据的实时准确。随着技术的不断发展,对大数据平台的要求越来越实时化和智能化,作为大数据架构部门,也将不断的探索更好的支撑业务需求的架构和系统,保障业务更好更快发展。


本文转载自公众号贝壳产品技术(ID:gh_9afeb423f390)。


原文链接:


https://mp.weixin.qq.com/s/DFF8YFknZzrOA1ulHdTcog


2019-09-23 08:00769

评论

发布
暂无评论
发现更多内容

[JVM] String#intern 面试必会

猴哥一一 cium

Java JVM string pool string Java 25 周年

Python 沙盒环境配置

黄耗子皮

最长回文算法(马拉车算法)分析

Gadzan

Java 算法 LeetCode

技术工作的一二三之内功

拖地先生

个人成长

阅读对写作的好处

董一凡

写作

redis数据结构介绍六 快表

Nick

redis 源码 数据结构 源码分析 算法

技术工作的一二三之快餐

拖地先生

项目管理 软件开发 技术管理 软件开发流程

Java 异步编程:从 Future 到 Loom

理帆

Java 并发编程 kotlin Netty

redis数据结构介绍五-第五部分 对象

Nick

redis 源码 数据结构 源码分析 算法

Yii2.0 RESTful API 之速率限制

Middleware

php RESTful Yii2

KubeFATE 部署多集群联邦学习平台 FATE

亨利笔记

学习 Kubernetes FATE KUBEFATE

RocketMQ - 如何实现顺序消息

Java收录阁

RocketMQ

简述 HTTP 缓存相关的首部及其行为

黄耗子皮

缓存 HTTP

技术工作的一二三之价值观方法论

拖地先生

个人成长 方法论

一个前端的 Windows10 开发环境

Gadzan

大前端 windows Windows Terminal 环境安装 开发工具

redis数据结构介绍四-第四部分 压缩表

Nick

redis 源码 数据结构 源码分析 算法

RocketMQ broker.properties

李绍俊

RocketMQ

【译】并不存在的普通用户(面向极端用户的设计)

Yukun

设计思维 可用性

Git数据传输模型及常用命令整理

王坤祥

git git flow

平台化服务的基石:用户认证模型设计

孤岛旭日

企业架构 模型 用户权限

ansible-playbook中when结合tags使用,实现变量控制执行

唯爱

JVM最佳学习笔记<二>---垃圾收集器与内存分配策略

Loubobooo

Java JVM

Yii2.0 RESTful API 之版本控制

Middleware

php RESTful Yii2

JVM最佳学习笔记<四>---虚拟机类加载机制

Loubobooo

Java JVM

一周信创舆情观察(5.18~5.24)

统小信uos

基础软件 操作系统

JUC整理笔记三之测试工具jcstress

JFound

Java

Kubernetes in action 笔记

FeiLong

Kubernetes 容器

使用 Python 分析 Google Calender 日程

Roc

Python 总结 日历

JVM最佳学习笔记<三>---虚拟机性能监控与故障处理工具

Loubobooo

Java JVM

介绍一下自研开源NLP工具库---MYNLP

陈吉米

自然语言处理 中文分词 mynlp nlp

企业也有中年危机?探讨数字化与永续经营

FinClip

数字化转型 小程序生态

秒X平台-助力实时分析_文化 & 方法_王磊 简会洋_InfoQ精选文章