阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

360 数据处理平台的架构演进及优化实践

  • 2019-11-24
  • 本文字数:3754 字

    阅读完需:约 12 分钟

360数据处理平台的架构演进及优化实践

背景介绍

在当今的大数据时代,大数据计算引擎已经从原先最早的 Hadoop 生态系统演变到了第三代甚至是第四代计算引擎,比如 Spark 以及 Flink 等;存储引擎也是呈现多样化的发展,如支持 MPP 的关系型存储、分布式存储、时序数据库等。大数据生态的多样性给大数据开发的学习成本造成了很大程度的提高。


然而,当前我们的主流开发模式还是基于脚本开发,业务人员无法参与到我们的计算中来,这种开发模式在很大程度上依赖开发人员的效率,数据的时效性会难以保证。同时,数据开发过程中的数据流转全程黑盒,这给开发维护人员带来了很大的维护困难。最后,缺乏统一的资源调度导致资源长时间被占用不释放,从而引起资源浪费。以上是大数据开发人员所面临的问题和挑战。


从平台的角度来看,以 360 公司为例,公司产品形态多样化,包括了 PC 产品、WEB 产品、移动端产品等等,多样化的产品意味着数据处理平台面临着繁杂的数据类型,同时也必然面临了多样化的存储引擎及存储格式。


此外,在大数据时代,数据处理的场景已经不再停留在简单的 ETL 过程,不仅仅包括简单的指标计算,还需要涵盖数据解析、数据分析、机器挖掘等等。随着数据对产品的指导作用越来越重要,业务对数据的时效、规则生效的时效以及需求响应的时效有了非常高的要求。


从大数据开发人员和平台开发的角度分析了当前面临的问题和挑战之后,接下来我们来看看要如何通过平台来解决这些问题。

平台演进

Titan 大数据处理平台是 360 集团内部的一站式大数据处理应用平台,提供了数据集成、 数据同步、数据计算、数据分析以及流式数据处理等大数据处理应用场景的功能。


既然是演进,那就要从前世讲到今生了。我们的平台化进程基本可以分为三个阶段:

1 Titan 前

这个阶段的架构图如下图 1 所示:



图 1 Titan 前架构


这个时期分布式计算兴起,从传统单机计算过渡到了分布式计算,在分布式计算引擎的基础上抽象了各类脚本模板,基于此,我们的工作模式从纯手工劳作转变到了脚本模板的开发。


开发模式的转变使得我们的计算效率和开发效率得到了很大程度的提升。但随着产品爆发式的增长、场景的增多,脚本模板无法提供灵活的方式,依然需要铺大量的人力解决。

2 Titan 1.0

这个阶段的架构图如下图 2 所示:



图 2 Titan 1.0 架构


在这个架构里,基于分布式引擎及计算场景,抽象了各类型的模板库,通过模板库引用到我们的上层交互,以系统的方式将数据开发一定程度上交给业务。同时可以看到,这个阶段里,数据源相对丰富了,产品也比较丰富了,有计算平台、报表平台、在线查询系统以及经营分析平台。


一方面把数据运维交给业务,另一方面也一定程度上把数据开发交给业务,让业务具有自主开发的能力。


但随着产品的发展,这个架构也很快暴露出了一些问题:一方面没有实时流的接入;另一方面模板库从一定程度上也是定制开发,依然无法满足个性化场景;任务运维开放的不够,在一定程度上依赖平台开发人员,运维成了瓶颈。

3 Titan 2.0

这个阶段的架构图如下图 3 所示:



图 3 Titan 2.0 架构


Titan 2.0 采用了第三代计算引擎。


众所周知,第三代计算引擎主要特点是支持 JOB 内部 DAG 以及强调实时计算。在第三代计算引擎基础上,自主研发了 DITTO 组件框架和规则引擎,基于组件及计算的抽象提供丰富的组件库,采用图元拖拽的方式实现数据处理的无码化操作。同时通过调度监控以及权限管理,实现系统的自助运维以及数据安全的保障,值得一提的是,支持多种数据源接入,极大程度上满足各种数据类型及存储类型。

Tian 2.0 功能模块

一级功能

从功能上,Tian 2.0 划分了以下几个功能模块,一级功能视图如下图 4 所示:



图 4 一级功能视图

二级功能

数据源管理实现了多数据源归一化处理,同时也提供了对数据安全和质量约束的保证。抽取和加载通过对各个存储引擎处理的抽象,实现了同时支持流式数据抽取和加载以及批数据抽取和加载。


任务管理部分通过图源配置,达到给用户提供灵活配置的需求,同时辅以我们运维管理模块的规则配置、任务调测以及数据流查看,实现了可视化运维和实例运维的效果。


调度引擎在提供即时调度、指定周期调度、历史任务调度的同时,还支持了实时调度和监控的功能。此外,权限管理不仅实现了角色权限、操作权限、菜单权限,还实现了数据源权限管理,为数据提供安全保障。如图 5 视图所示:



图 5 二级功能视图


Titan 2.0 从技术架构上来讲,采用的是第三代计算引擎,实现了跨引擎以及批处理和流处理的统一,这对上层用户是透明的;其次,它采用了 DAG 优化,提供了整个系统的处理能力以及计算效率,Titan 2.0 与数据资产系统结合实现了全链路的数据质量监控以及数据的安全性保障。


业务架构上的优势可以总结为 4 个词:


多源 :包含了对多应用的支持,以及对各类异构数据源存储系统柜的支持;

易用 :系统的易用性突出在无码化上,数据计算,比如一个 DAU 计算只需要拖拖拽拽就可以了;

自助、灵活 :自助化和灵活性体现在任务的配置修改、监控调度完全交给用户自己,不依赖于开发人员,想怎么玩就怎么玩,让用户真实的体验到玩转大数据。

实践案例

接下来分享一下平台的几个典型的实践:


首先是 DITTO 组件框架,DITTO 组件框架的设计是为了解决多数据源、多存储源以及满足多种计算场景的需求。我们采用统一入口的方式,实现了对异构异源数据的支持以及离线计算与实时计算的统一,并采用组件组装 DAG 后计算满足各类场景需求。


下图 6 为 DITTO 组件框架的基本架构图,从架构图中可以看到,DITTO 是搭建在 Spark、Flink 这类计算引擎之上的,上层可以支持离线计算、实时计算、机器学习、在线查询等图元化应用。



图 6 组件框架架构图


DITTO 采用了三层任务结构设计,如图 7 所示,分别是 Application、Job、Task,它们之间的关系是一对多的关系,也就是一个 App 对应多个 Job,一个 Job 对应多个 Task,App 在一次运行中负责了所有层次的初始化及所有事件的提交,DAG 会在 Job 层次进行编排,最后 Task 这里是真正的执行单元。



图 7 DITTO 组件框架设计


在 DITTO 中,组件是最小的执行单元,DITTO 的抽象大致可以分为组件计算逻辑抽象,组件计算引擎抽象和组件运行环境抽象这几个部分。


这里分享 DITTO 设计过程中如何对计算、组件、context 和规则引擎进行抽象:


首先计算抽象。不论是数据处理、数据分析还是数据挖掘,最终都是一个数据的输入到一个数据的输出,那么首先就会有一个数据源的概念。而数据处理又分为业务的处理逻辑以及计算单元,这样就产生了业务逻辑的抽象和计算逻辑的抽象。当然,在计算的时候,要根据业务场景或者需求需要来选择不同的计算引擎,所以基于这四个方面计算可以进行动态的拼装,随意拼接去形成一次数据处理的计划,满足一定场景,这就是我们计算抽象的过程。



图 8 计算抽象


其次是组件抽象,组件的执行需要做一个统一的入口或者说统一的标准,这个标准抽象为生命周期。标准定下来之后,数据如何进入到组件中,这里就会有一个数据采集。接下来数据在组件之间的流转需要定义一个元数据,元数据包括了数据类型和数据字段。对于数据依赖其实就是拓扑关系的维护。



图 9 计算组件抽象


下图 10 是关于组件的类图,通过一个高层次的抽象来达到计算引擎的无关性,同时从这个类图中也可以看到我们的组件周期大致分为了 prepare、execute、declare、clearup 等几个阶段,数据的依赖通过 dependencies 来维系。



图 10 组件的类图


而后是 context,在 DITTO 中 context 主要负责初始化过程及上下文传输,在一个 application 的初始阶段,首先由 context 进行初始化。它负责了组件的初始化、计算引擎的初始化、时间的初始化还有 DittoEnv 和调度器的初始化。上下文传输部分的话,由于对于组件来说只关注自己本身,context 来负责维系各个组件之间的数据流转。



图 11 context



图 12 context 初始化流程图


最后是规则引擎,规则引擎其实比较好理解,它最重要的功能就是实现业务规则从应用程序代码中分离,简单来说就是实现了集成代码与业务无关,也就是将字符串或者是代码块传到我们的解释器后直接给出结果。在 Titan 2.0 里,基于规则引擎主要抽象出了四个部分,分别包括了逻辑运算、内置运算、四则运算、文本处理。



图 13 规则引擎


在做 DITTO 初期,规则引擎是以一种 DSL 的方式接入到系统中的,随着场景的发展以及我们平台的扩展,规则引擎目前以独立的产品形态来提供服务。


图 14 为当前我们规则引擎的整体架构,从架构图中可以看到在提供常规规则处理的同时,我们规则引擎也提供了规则库和函数库的管理,方便我们业务以更加自主自助的方式来试用我们的规则引擎。



图 14 规则引擎架构


另外在实际场景中,我们还从组件粒度上对性能和场景进行了优化,包括防止数据倾斜处理、防止内存溢出处理、数据缓存处理小文件合并等等。

结尾

最后分享一下个人的一些心得体会。


我个人认为,在设计产品或者技术架构上,首先应该遵循化繁为简的原则,一定要避免过度设计,这个我们早期确实也踩过不少的坑;再者就是要一起从业务场景出发,做好需求分析,了解用户的核心痛点才能做到设计直击痛点、方便用户,因为平台的发展离不开业务的滋养,也正是业务场景的不断变化才带来了平台的不断进步;最后,平台的稳定是一切的基础,一切性能优化都需要找到那个平衡点。


本文转载自公众号 360 云计算(ID:hulktalk)。


原文链接:


https://mp.weixin.qq.com/s/5vLIqzDOL3HcISzUZgtvhA


2019-11-24 19:451094

评论

发布
暂无评论
发现更多内容

Postman Test 校验入门指南:轻松进行接口测试并验证响应

Liam

Java 程序员 Postman 开发工具 API

拥抱jsx,开启vue3用法的另一种选择

快乐非自愿限量之名

Vue JSX

PoseiSwap IDO、IEO 结束,即将登录 BNB Chain

鳄鱼视界

PoseiSwap IDO、IEO 结束,即将登录 BNB Chain

威廉META

6 大场景落地全面预算管理闭环

用友BIP

全面预算

走进用友BIP数智人力,揭开中国企业智慧管理的神秘面纱

用友BIP

数智人力

构建数字工厂丨数据分析与图表视图模型的配置用法

华为云开发者联盟

后端 物联网 华为云 华为云开发者联盟 企业号 6 月 PK 榜

活动预告|周五晚,一起来看图数据库如何为构建行业大模型降本增效

悦数图数据库

图数据库 AIGC AI大语言模型

Spring Cloud 如何引入云原生网关,创新微服务架构

阿里巴巴云原生

阿里云 微服务 云原生 Higress

软件测试/测试开发丨接口测试学习笔记分享

测试人

Python 程序员 软件测试 接口测试 Mock

全球化数字经济时代,国产替代成为重中之重!

用友BIP

国产替代

广州丨阿里云 Serverless 技术实战营邀你来玩!

阿里巴巴云原生

阿里云 Serverless 云原生

高可用只读,让RDS for MySQL更稳定

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 6 月 PK 榜

[NLP] langchain-ChatGLM 本地知识库

alexgaoyh

知识库 私有化部署 langchain ChatGLM-6B

9 个值得推荐的 VUE3 UI 框架

互联网工科生

Vue UI VUE 3.0 源码

如何用低代码开发平台快速实现单据打印功能?

力软低代码开发平台

QCN6274 QCN9274 What is the difference?|WIFI7 Solution|Wallys

wallyslilly

qcn9274 qcn6274

AI开源:国际化开发潮流与低代码平台的崛起,探析其积极影响

EquatorCoco

人工智能 AI 低代码 AI开源

2023年,低代码秀起了肌肉

树上有只程序猿

探秘华为云盘古大模型:AI for industries的身体力行

华为云开发者联盟

人工智能 华为云 盘古大模型 华为云开发者联盟 企业号 6 月 PK 榜

低代码——前端开发人员的利器

伤感汤姆布利柏

未来已来!探索AI医疗与低代码开发平台:引领健康浪潮的科技巨潮

不在线第一只蜗牛

人工智能 医疗健康领域 AI医疗

教你如何用Vue3搭配Spring Framework

华为云开发者联盟

前端 开发 华为云 华为云开发者联盟 企业号 6

预约直播 | 展心展力MetaApp:基于DeepRec的稀疏模型训练实践

阿里云大数据AI技术

人工智能 模型训练

HTML5 游戏开发实战 | 贪吃蛇

TiAmo

html html5 6 月 优质更文活动

产品能力|AIRIOT数据采集与控制引擎在物联网项目中的硬核应用

AIRIOT

物联网

是时候了!MySQL 5.7 的下一站,不如试试 TiDB?

编程猫

面试了一个前阿里P7,Java八股文与架构核心知识简直背得炉火纯青

程序员小毕

程序员 后端 高并发 架构师 java面试

用这个开源项目,网络小白也能搞定容器网络问题排查

阿里巴巴云原生

阿里云 容器 云原生 KubeSkoop

免费开源项目管理工具有哪些

PingCode

项目管理 项目管理软件

升级数智底座助力快速构建创新应用

用友BIP

低代码 数智底座 Pass平台

360数据处理平台的架构演进及优化实践_文化 & 方法_王素梅_InfoQ精选文章