【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

博睿数据发布新一代统一告警平台 OneAlert:多源事件统一接入、海量告警降噪收敛

  • 2022-03-01
  • 本文字数:1787 字

    阅读完需:约 6 分钟

博睿数据发布新一代统一告警平台OneAlert:多源事件统一接入、海量告警降噪收敛

近日,博睿数据正式推出了一款多源事件统一接入、海量告警降噪收敛、故障统一管理的新一代告警平台——OneAlert。该平台可以帮助企业在构建数字化运维体系过程中,降低运维成本、提升工作效率,为业务的稳定运行保驾护航。


当前,随着企业数字化转型进程加速,企业的 IT 运行环境日趋复杂,尤其是随着信息化建设的不断深入,信息系统越来越多,各类系统越来越复杂,数据处理量也成倍的增长,极容易产生大面积事件的告警风暴。


为了快速发现自身平台故障,需要使用多个监控平台满足不同场景的监控需求,但各个平台往往互相独立,经常需要在多个平台查看和处理告警,事前发现、事中处理、事后审计都很难统计所有告警信息,使相关人员工作难度加大,导致运维管理成本较高,工作效率低下,运维人员苦不堪言。


博睿数据产品管理部高级总监孙丽在接受 InfoQ 等在内的少数几家媒体采访时表示,当前运维市场监控孤岛化现象非常严重,很多客户监控平台可能达到十几家,包括云厂商监控、容器监控、业务方监控,以及 APM、NPM、DM 厂商监控等等。未来,ITOM 的市场趋势就是统一。因此,统一事件告警平台 OneAlert 应运而生。

数字化趋势下传统 IT 运维的挑战


在数字化趋势下,传统的运维管理流程相关工具暴露了诸多问题。孙丽在接受采访时表示,当前主要存在以下三大问题:


  • 第一,现有的运维系统不是面向业务与用户体验的,而是面向于资源与应用程序的。

  • 第二,孤岛化现象非常严重。尤其是云延伸发展以后,整个环境动态化包括依赖关系特别强,企业业务已经不可观测了。现在监控其实满足不了运维需求,而是需要一个统一的可观测平台。

  • 第三,不够智能。运维工作需要投入大量的精力,如何通过人工智能的方式把运维同学的运维体验和效率提升上去,是一个需要持续思考的问题。总的来说,运维的终级状态就是智能运维,整体上人投入的精力非常低。


博睿数据认为,智能运维绝不仅局限于技术或产品,更是一种理念和策略。智能运维当以数据为基础,以监控为预警,以自动化为导向,以流程为管理,以算法为支撑,以可视化为辅助。基于此,博睿数据发布新一代统一告警平台 OneAlert,助力企业数字化转型。

统一化、规范化、智能化告警管理


据悉,OneAlert 平台是一个集告警接入、告警收敛、告警通知、告警处理、告警分析为一体的统一管理平台,产品整体架构分为事件源的采集层到接入层、存储层、处理层、展示层。



博睿数据首席架构师李骅宸在接受采访时表示,OneAlert 算法框架上层是数据输入,框架里可能有一个接口或者模块,不管是在线实时数据还是离线数据,进行数据传输,数据输入模块之下还有数据计算,主要是在线的聚合实时计算跟指标相关的一些计算技术。下层还要基于过去的日级别、月级别数据,并大量通过 Spark、Haddoop 这种大数据引擎去做一些计算,计算完之后,输出精确的 AI 算法结果的输出模块。


具体而言,OneAlert 平台主要具备以下三大能力:


1、多源事件统一接入,全方位监控覆盖


OneAlert 平台支持对主流运维监控告警源(ZABBIX、Prometheus、阿里云监控等)提供统一的事件接入功能,并对接入的多源异构数据提供标准化的映射处理功能,实现了运维异常事件的全方位监控,避免因自身监控数据相互独立导致重大事件无人发现的监控死角。


2、运维故障标准处理,提升工作效率


接入多来源的告警数据后,OneAlert 平台支持提供统一、实时的故障信息展示,运维人员不再需要登录多个平台查看故障情况,从而提升了异常事件的处理效率;同时,OneAlert 支持针对不同的通知要求选用不同的通知方式,实现将故障快速通知到相关负责人,保证故障及时响应,缩短故障处理时间,最小程度降低对业务的影响;最后,OneAlert 支持对故障进行处理跟踪,实现故障生命周期的闭环管理,使运维故障处理从以前的无序到有序流程化,提升一线运维人员、运维管理人员的整体工作效率。


3、海量告警智能收敛,降低运维成本


OneAlert 平台还支持通过告警降噪功能,对海量杂乱的异常事件进行降噪处理,大大降低了故障分析的信息量;并通过自定义标签收敛、智能 AI 收敛的功能,识别出异常事件之间的关联性,将多个关联事件归并处理成一个故障,从而辅助运维人员聚焦处理关键故障信息,避免告警风暴,极大程度降低整体运维成本。


整体来说,基于博睿数据在运维行业多年的技术积累,OneAlert 平台率先实现了对故障(事前)及时发现、统一管理;(事中)快速响应、精准处理;(事后)分析统计的全生命周期完整管控。

2022-03-01 11:352322

评论

发布
暂无评论
发现更多内容

GreptimeDB v0.3 正式发布|分布式能力全面提升

Greptime 格睿科技

数据库 rust 云原生 分布式数据库 时序数据库

阿里云 EMAS & 魔笔:5月产品动态

移动研发平台EMAS

阿里云 DevOps 消息推送 低代码平台

理论+示例,详解GaussDB(DWS)资源管理

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

“站在后天看明天”:华为给金融广厦架起数字栋梁

脑极体

金融 数字化 智能化

揭秘阿里云Flink智能诊断利器——Fllink Job Advisor

阿里云大数据AI技术

大数据 flink 企业号 6 月 PK 榜

NFTScan 成为 CMC 官方 NFT 数据合作伙伴

NFT Research

crypto NFT

软件测试 | Web自动化测试

测吧(北京)科技有限公司

测试

祝贺!Databend 入选 ICT 中国可信云优秀云原生创新案例

Databend

详解驱动开发中内核PE结构VA与FOA转换

华为云开发者联盟

开发 华为云 驱动开发 华为云开发者联盟 企业号 6 月 PK 榜

SpringBoot 升级所踩过的坑 (二)

技术小生

6 月 优质更文活动

主动发现系统稳定性缺陷:混沌工程 | 京东云技术团队

京东科技开发者

混沌工程 系统 系统工程 混沌工程实践 企业号 6 月 PK 榜

Mybatis的parameterType造成线程阻塞问题分析 | 京东云技术团队

京东科技开发者

mybatis CPU告警 企业号 6 月 PK 榜 线程阻塞

最强攻略 | 1分钟带你了解内测,成为BUG小能手!

百度Geek说

百度 测试 企业号 6 月 PK 榜 6 月 优质更文活动

不愧是阿里P8出手的并发编程笔记!颠覆了我以往"正确"的认知

程序知音

Java 并发编程 java架构 Java进阶 后端技术

2023年数智人力管理不容错过的2大神器

用友BIP

人力资源 数智人力

服务型企业为什么要做财务共享中心?

用友BIP

黑盒不黑:跨端 C/C++ 库一键源码调试方案

阿里技术

调试

软件测试 | Selenium验证页面元素

测吧(北京)科技有限公司

测试

横空出世!京东技术专家狂推的Redis笔记,实战和原理两开花

程序知音

Java 数据库 redis Java进阶 后端技术

Kubernetes 集群管理:Kurator or Kubespray

华为云开发者联盟

云原生 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

技术赋能-混流编排功能,助力京东618直播重保 | 京东云技术团队

京东科技开发者

监控 直播技术 直播推流 企业号 6 月 PK 榜 重保

【Clickhouse】ReplaceingMergeTree引擎final实现合并去重探索 | 京东云技术团队

京东科技开发者

OLAP final clickhosue 企业号 6 月 PK 榜 合并去重

2022 中国开源创新大赛,时序数据库 TDengine 榜上有名

爱倒腾的程序员

涛思数据 时序数据库 ​TDengine

苹果MR Vision Pro将会带动哪些零部件出货?

元器件秋姐

苹果 AR 交互 vr MR

TiDB 7.1 LTS 发版:为关键业务提供业务稳定性和多租户场景支持

编程猫

TiDB pingCAP

世界500强潍柴动力携手用友BIP全球司库打造资金管理系统,正式启动!

用友BIP

全球司库

中国银行开启数智人力管理新征途

用友BIP

人力资源 数智人力

this 之谜揭底:从浅入深理解 JavaScript 中的 this 关键字(一)

控心つcrazy

JavaScript this指针 this

AI老师的作者:17岁的高中生,可能是你想要孩子成为的样子

无人之路

AI 教育 ChatGPT

金融集团企业资金管理难度加倍,用友BIP如何破解这个难题?

用友BIP

资金管理

Postman 前后端都适用吗?

Liam

前端 后端 开发 Postman API

博睿数据发布新一代统一告警平台OneAlert:多源事件统一接入、海量告警降噪收敛_文化 & 方法_凌敏_InfoQ精选文章