写点什么

CAT 3.0 开源发布,支持多语言客户端及多项性能提升

  • 2020-02-25
  • 本文字数:2248 字

    阅读完需:约 7 分钟

CAT 3.0 开源发布,支持多语言客户端及多项性能提升

项目背景


CAT(Central Application Tracking),是美团点评基于 Java 开发的一套开源的分布式实时监控系统。美团点评基础架构部希望在基础存储、高性能通信、大规模在线访问、服务治理、实时监控、容器化及集群智能调度等领域提供业界领先的、统一的解决方案,CAT 目前在美团点评的产品定位是应用层的统一监控组件,在中间件(RPC、数据库、缓存、MQ 等)框架中得到广泛应用,为各业务线提供系统的性能指标、健康状况、实时告警等服务。


本文会对 CAT 的客户端、性能等做详细深入的介绍,前不久我们也发过一篇 CAT 相关的文章,里面详细介绍了 CAT 客户端和服务端的设计思路,欲知更多细节,欢迎阅读《深度剖析开源分布式监控CAT》

产品价值

  • 减少故障发现时间。

  • 降低故障定位成本。

  • 辅助应用程序优化。

技术优势

  • 实时处理:信息的价值会随时间锐减,尤其是在事故处理过程中。

  • 全量数据:全量采集指标数据,便于深度分析故障案例。

  • 高可用:故障的还原与问题定位,需要高可用监控来支撑。

  • 故障容忍:故障不影响业务正常运转、对业务透明。

  • 高吞吐:海量监控数据的收集,需要高吞吐能力做保证。

  • 可扩展:支持分布式、跨 IDC 部署,横向扩展的监控系统。

使用现状

目前,CAT 已经覆盖了美团点评的外卖、酒旅、出行、金融等核心业务线,几乎已经接入美团点评的所有核心应用,并在生产环境中大规模地得到使用。


2016 年初至今,CAT 接入的应用增加了 400%,机器数增加了 900%,每天处理的消息总量高达 3200 亿,存储消息量近 400TB,高峰期集群 QPS 达 650 万/秒。


面对流量的成倍增长,CAT 在通信、计算、存储方面都遇到了前所未有的挑战。整个系统架构也经历了一系列的升级和改造,包括消息采样聚合、消息存储、业务多维度指标监控、统一告警等等,项目最终稳定落地。为公司未来几年内业务流量的稳定增长,打下了坚定的基石。


经过 7 年的持续建设,CAT 也在不断发展,我们也希望更好的回馈社区,将 CAT 提供的服务惠及更多的外部公司。我们今年将对开源版本进行较大的迭代与更新,未来也会持续把公司内部一些比较好的实践推广出去,欢迎大家跟我们一起共建这个开源社区。

新版特性

CAT 3.0.0 Release Notes

多语言客户端

随着业务的不断发展,很多产品和应用需要使用不同的语言,CAT 多语言客户端需求日益增多,除 Java 客户端外,目前提供了 C/C++、Python、Node.js、Golang 客户端,基本覆盖了主流的开发语言。对于多语言客户端,核心设计目标是利用 C 客户端提供核心 API 接口作为底层基石,封装其他语言 SDK。



目前支持的主流语言使用指南:


性能提升

  • 消息采样聚合


消息采样聚合在客户端应对大流量时起到了至关重要的作用,当采样命中或者内存队列已满时都会经过采样聚合上报。采样聚合是对消息树拆分归类,利用本地内存做分类统计,将聚合之后的数据进行上报,减少客户端的消息量以及降低网络开销。



  • 通信协议优化


CAT 客户端与服务端通信协议由自定义文本协议升级为自定义二进制协议,在大规模数据实时处理场景下性能提升显著。目前服务端同时支持两种版本的通信协议,向下兼容旧版客户端。


  • 测试环境:CentOS 6.5,4C8G 虚拟机

  • 测试结果:新版相比旧版,序列化耗时降低约 3 倍

  • 消息文件存储


新版消息文件存储进行了重新设计,解决旧版本的文件存储索引、数据文件节点过多以及随机 IO 恶化的问题。


新版消息文件存储为了同时兼顾读写性能,引入了二级索引存储方案,对同一个应用的 IP 节点进行合并,并且保证一定的顺序存储。下图是索引结构的最小单元,每个索引文件由若干个最小单元组成。每个单元分为 4×1024 个桶,第一个桶作为我们的一级索引 Header,存储 IP、消息序列号与分桶的映射信息。剩余 4×1024 - 1 个桶作为二级索引,存储消息的地址。



新版消息文件存储文件节点数与应用数量成正比,有效减少随机 IO,消息实时存储的性能提升显著。以下为美团点评内部 CAT 线上环境单机消息存储的数据对比:


未来规划

  • 技术栈升级

  • 拥抱主流技术栈,降低学习和开发成本,使用开源社区主流技术工具(Spring、Mybatis 等),建设下一代开源产品。

  • 产品体验

  • 对产品、交互进行全新设计,提升用户体验。

  • 开源社区建设

  • 产品官网建设、组织技术交流。

  • 更多语言 SDK

关于开源

https://github.com/dianping/cat


自 2014 年开源以来,Github 收获 7700+ Star,2800+ Forks,被 100+ 公司企业使用,其中不乏携程、陆金所、猎聘网、平安等业内知 名公司。在每年全球 QCon 大会、全球架构与运维技术峰会等都有持续的技术输出,受到行业内认可,越来越多的企业伙伴加入了 CAT 的开 源建设工作,为 CAT 的成⻓贡献了巨大的力量。



美团点评基础架构部负责人黄斌强表示,在过去四年中,美团点评在架构中间件领域有比较多的积累沉淀,很多系统服务都经历过大规模线上业务实际运营的检验。我们在使用业界较多开源产品的同时,也希望能把积累的技术开源出去,一方面是回馈社区,贡献给整个行业生态;另一方面,让更多感兴趣的开发工程师也能参与进来,共同加速系统软件的升级与创新。所以,像 CAT 这样的优秀项目,我们将陆续开源输出并长期持续运营,保证开源软件本身的成熟度、支撑度与社区的活跃度,也欢迎大家给我们提出更多的宝贵意见和建议。

结语

这是一场没有终点的长跑,我们整个 CAT 项目组将长期有耐心地不断前行。愿同行的朋友积极参与我们,关注我们,共同打造一款企业级高可用、高可靠的分布式监控中间件产品,共同描绘 CAT 的新未来!


这次开源仅仅是一个新的起点,如果你对 CAT 新版本有一些看法以及建议,欢迎联系我们:cat@dianping.com or Github issues


2020-02-25 20:331152

评论

发布
暂无评论
发现更多内容

主从哨兵集群终于给你说明白了

moon聊技术

数据库 redis

优化了MYSQL大量写入问题,老板奖励了1000块给我

华为云开发者联盟

MySQL sql 写入

LeetCode题解:264. 丑数 II,三指针,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

免费下载来自阿里巴巴 双11 的《云原生大规模应用落地指南》

阿里巴巴云原生

阿里巴巴 阿里云 开发者 云原生 k8s

打造新一代企业数据驱动体系

StarRocks

数据库 大数据 数据分析 数字化转型 OLAP

架构师训练营第六周作业

zamkai

内存分页不就够了?为什么还要分段?还有段页式?

yes

操作系统 内存管理

Flink SQL 实战:HBase 的结合应用

Apache Flink

flink

干了三年的Java,你竟然还不会MySQL性能优化

华为云开发者联盟

Java MySQL sql

2021 第一份唠嗑

大头虾

面试腾讯,字节跳动首先要掌握的Java多线程,一次帮你全掌握

Java架构之路

Java 程序员 架构 面试 编程语言

Polkadot系列(四)——Polkadot茶溪岸啤(XCMP),干杯!

QTech

区块链技术 polkadot 跨链

敏捷与安全不可兼得吗?看完这篇文章后,我想说:未必!

华为云开发者联盟

敏捷 安全 开发

阿里拆中台?从架构师角度解读中台

javaba韩老师

架构 中台战略 TOGAF 中台的前世今生 中台的由来

基于 Flink+Iceberg 构建企业级实时数据湖

Apache Flink

大数据 flink 流计算

软件测试--前后端数据交互

测试人生路

软件测试

面试软件测试所需要掌握的7个技能

华为云开发者联盟

sql 面试 测试

字节内部MySQL宝典意外流出!极致经典,堪称数据库的天花板

比伯

Java 编程 架构 面试 技术宅

引起故障的原因

jorden wang

如何利用状态同步开发一款游戏

Isa 婷婷

node.js 游戏开发 24小时自助游戏厅 联机游戏

准备去阿里以及大厂面试你都需要会些什么?我从任职阿里的朋友口中,总结出了一些答案!

Java架构之路

Java 程序员 架构 面试 编程语言

基于GaussDB(DWS)的全文检索特性,了解一下?

华为云开发者联盟

数据库 数据仓库 数据

曲折!目标腾讯,字节,拼多多;最后居然五面进了阿里?

Java架构之路

Java 程序员 架构 面试 编程语言

干货|原来IPFS是这样存储文件的

QTech

区块链技术 IPFS 星际文件系统

40亿条/秒!Flink流批一体在阿里双11首次落地的背后

Apache Flink

flink 流计算

2020年不容错过的10本大咖之作 | 你最Pick哪一本?

博文视点Broadview

Flink 双流 Join 的3种操作示例

Apache Flink

flink 流计算

light-rtc: 理念与实践

阿里云CloudImagine

架构 音视频 WebRTC RTC

深层互联带领自动旅游讲解耳麦进入“非入耳”时代

DT极客

Spring Cloud Gateway (六) 自定义 Global Filter

Java 网关 SpringcloudGateway

「每日一题」抖音面试题:请阐述vue数据绑定的实现原理

Java架构师迁哥

CAT 3.0 开源发布,支持多语言客户端及多项性能提升_文化 & 方法_美团技术团队_InfoQ精选文章