高品质的音视频能力是怎样的? | Qcon 全球软件开发大会·上海站邀请函 了解详情
写点什么

宜信数据中台全揭秘(一)数据中台整体介绍

  • 2020-06-17
  • 本文字数:2582 字

    阅读完需:约 8 分钟

宜信数据中台全揭秘(一)数据中台整体介绍

导读:随着近些年数据中台在市场的火热,宜信也基于 DBus,Moonbox,Wormhole,Davinci 四大开源组件完全自主研发了数据中台。 宜信数据中台不仅提供了高度便捷的数据开发,探索,模型搭建,数据资产共享等功能。还在数据安全,数据清洗,数据加密等方面保证数据的安全性。 不仅兼容了过往传统数仓的批量数据处理,还创新性的加入了流式实时计算等功能,通过对流式计算的高度抽象,使用户通过使用最简单标准的 SQL 即可完成丰富经验的大数据工程师完成的流式作业任务研发工作,大大降低了流式作业的开发门槛。 本次分享我们就结合目前宜信的业务,说说数据中台的主要研发逻辑和具体功能。

分享大纲:

1、中台定位

2、数据中台价值

3、数据中台模块架构

4、数据中台核心功能

5、解决核心问题概览

PPT 下载:链接: https://pan.baidu.com/s/1eSkSdUo6FmYFmcE4xg0vjw 密码: 99uh


分享实录


一、数据中台定位

1.1 ADX 整体简介-中台定位


首先对中台的服务范围说明


企业级:针对是整个企业的所有业务部门,横向贯穿整个业务线的数据,纵向贯穿整个数据生命周期,从最开始的数据采集(DB,日志,消息,文件),入湖,标准化,开发(批量作业,流式作业)维度表,最后到数据服务和数据应用。


复用:复用的范围包括,能力的复用,逻辑的复用,数据资产的复用,算法的复用


能力:对平台能力进行抽象,对于不同平台的对能力的抽象,业务平台(流程控制,管理,审批,权限「等级,继承」,调度),数据平台(批量,流式,UDF,UDAF,数据质量,血缘分析,数据地图,调度,数据资产管理,权限,数据服务)。



分横向和纵向两个方面:


横向划分


  • 大数据基础集群:更贴近硬件的平台,负责提供稳定及高可用的计算运行环境,及安全的数据存储环境

  • HDFS-数据湖的基础存储,存放表每天的快照,和增量数据

  • KUDU-最新快照,用于即席查询,数据服务,流式数据快照

  • ClickHouse-Clickhouse 做 DW 和 DM 层的存储。

  • 数据中台 :对数据能力的抽象 ,数据的流式和批量加工,数据资产的发布,数据统一落湖,质量管理检测,脱敏加密,统一数据出口能力。

  • 业务前台:对业务系统,业务线数据团队,提供各种不同的数据能力。使其能在中台上沉淀企业级数据资产。


纵向划分


  • 数据管理委员会:对数据资产的质量认证,数据使用权限的授权,数据治理项目推动实施。

  • 数据运营团队:客户标签,用户画像,产品画像,智能推荐,精细化管理。

  • 数据安全团队:数据脱敏加密,安全密钥管控,数据风险的控制


二、数据中台价值

2.1 数据中台价值


  • △快


传统数仓定制化报表,排期周期长,响应需求慢,重复开发工作比较多。T+1 的数据失效也满足不了现在互联网业务场景下对数据实时处理能力的需求。对中台平台自主化开发,可以提升数据加工能力沉淀,以及实时数据处理能力


  • △准:


数据获取准确性,通过统一数据抽取平台对数据实时抽取,同时完成标准化,入湖,脱敏发布。通过元数据和血缘分析准确获取数据地图。通过模型管理和统一模型口径


  • △省:


节省人力成本,大大降低大数据处理的技术门槛,使用户能够快速上手。节省需求排期时间,使数据能更快的响应业务需求。节省硬件资源,通过对平台资源的整合,规划,节省硬件使用维护成本


2.2 数据总线平台 DBus


DBus 面向大数据项目开发和管理运维人员,致力于提供数据实时采集和分发解决方案。平台采用高可用流式计算框架,提供海量数据实时传输,可靠多路消息订阅分发,通过简单灵活的配置,无侵入接入源端数据,对各个 IT 系统在业务流程中产生的数据进行汇集,并统一处理转换成通过 JSON 描述的 UMS 格式,提供给不同下游客户订阅和消费。DBus 可充当数仓平台、大数据分析平台、实时报表和实时营销等业务的数据源。目前 dbus 支持的数据源包括 mysql,Orale db2,Mongo,日志系统,文件系统等。


2.3 流式处理平台 Wormhole


Wormhole 面向大数据项目开发和管理运维人员,致力于提供数据流式处理解决方案。平台专注于简化和统一开发管理流程,提供可视化的操作界面,基于配置和 SQL 的业务开发方式,屏蔽底层技术实现细节,极大降低了开发门槛,使得大数据流式处理项目的开发和管理变得更加轻量敏捷、可控可靠


2.4 虚拟混算服务平台 Moonbox


Moonbox 面向数据仓库工程师/数据分析师/数据科学家等,致力于提供数据虚拟化解决方案。既可作为数据应用底层数据查询计算统一入口,也可作为逻辑数据仓库与现有数据仓库互补。用户只需通过统一 SQL 服务调用和 Moonbox 交互,即可透明屏蔽异构数据系统异构交互方式,轻松实现跨异构数据系统透明混算


2.4 数据化可视应用平台 Davinci


Davinci 面向业务人员/数据工程师/数据分析师/数据科学家,致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用,也可作为可视化插件集成到三方系统。用户只需在可视化 UI 上简单配置即可服务多种数据可视化应用,并支持高级交互/行业分析/模式探索/社交智能等可视化功能


三、数据中台模块架构

3.1 数据中台模块架构


宜信中台整体底层采用 wormhole+dbus+moonbox 作为数据采集,加工,处理的底层引擎,通过服务的形式形成底层接口层提供数据实时处理的基础能力,在通过对接口层的整合,形成数据加工处理的子服务,使数据中台的后台服务完成调度,鉴权,认证,监控,告警。通过对不同组件层的能力整合完成了各项数据能力批量作业编排,调度,补数,手动重启,流式数据逻辑加工(source,lookup,transformation,union) flow 在 stream 内的物理执行顺序,流式数据落湖,流式数据回溯


3.2 功能目录


菜单划分


  • 管理类(审批,库表,团队,规则,密钥,监控,预警,元数据);

  • 功能类(批量作业,流式作业,即席查询,数据发布);

  • 数据应用类(血缘分析,数据地图,数据模型,数据质量)。


四、解决核心问题概览

4.1 批量作业处理


专注于作业编辑编排,是数据项目的 IDE,具体执行提交到对应中间件工具上执行。


简单一致的 IDE 体验


  • 批量作业、流式作业拖拽式编排

  • 批量作业、流式作业 SQL 式开发

  • 全局唯一表名,屏蔽异构数据系统

  • 开发期可验证 SQL 和数据正确性


4.2 流式作业处理


主要解决数据处理流程中错综复杂的依赖关系。


后面的沙龙我们将 详细的介绍宜信数据中台的批量处理和流式处理功能 请大家持续关注我们。


作者介绍


裴国强


宜信科技中心数据中台解决方案架构师


本文转载自公众号宜信技术学院(ID:CE_TECH)。


原文链接


https://mp.weixin.qq.com/s/-kOVl-tTED8284tvdOXFRw


2020-06-17 10:063084

评论

发布
暂无评论
发现更多内容

升级数据库游戏不停服?来看看TcaplusDB是怎么操作的

TcaplusDB

nosql Data TcaplusDB tencendb

闭关三月!啃透美团保姆级分布式进阶技术手册,终入美团定L8

Java 面试

发布60分钟!霸榜Github的阿里面试参考指南,啃透涨薪10k

Java架构师迁哥

点通生活系统软件开发搭建

英特尔中国研究院宋继强:AI技术已成为推动数字化转型的超级力量|WAIC 2021

新闻科技资讯

FIL币最新价格怎么样?FIL币最新消息是什么?

工商银行:应用多k8s集群管理及容灾实践

华为云开发者联盟

容器 多云 工商银行 k8s集群 Karmada

架构实战营模块8作业

eoeoeo

架构实战营

TcaplusDB君 · 行业新闻汇编(7月12日)

TcaplusDB

nosql TcaplusDB database tencendb

详解 nebula 2.0 性能测试和 nebula-importer 数据导入调优

NebulaGraph

数据库 开源 图数据库

Eureka可用性解读

赵镇

Eureka

亚马逊云科技和 Verizon 利用专有 MEC 解决方案扩大 5G 合作

亚马逊云科技 (Amazon Web Services)

从零开始学习3D可视化之摄像机投影方式

森友小锘

大前端 可视化 3D 数字孪生

鸿蒙轻内核源码分析:掌握信号量使用差异

华为云开发者联盟

鸿蒙 数据结构 信号量 结构体 OpenHarmony

夏令营|第五届埃文网络安全技能训练营火热报名中

郑州埃文科技

阿里P7大牛手把手教你!卧薪尝胆70天内推入职阿里

欢喜学安卓

android 程序员 面试 移动开发

铂金10:能工巧匠-ThreadLocal如何为线程打造私有数据空间

MetaThoughts

Java 后端 多线程 并发

理解Linux 终端、终端模拟器和伪终端

swordholder

Linux Shell SSH Linux Kenel

经过一年的不懈努力社招进了阿里,我总结了50个Java面试必考题

Java 程序员 架构 面试

程序员的自我修养-用科学的方法提高交付质量

刘绍

程序员 软件工程 软件质量 TDD 单元测试

Mtail导致Nginx报警延迟

BUG侦探

运维 监控 日志

一文读懂大数据实时计算

五分钟学大数据

实时计算 7月日更

阿里新出炉爆款的顶配版Spring Security笔记,肝完变秃也变强

Java spring 编程 架构

你见过最具有代表性的面试是什么样的?大三4面上岸腾讯(Java岗)

Java架构师迁哥

直击技术最前沿 | Amazon S3增加新的存档访问层

亚马逊云科技 (Amazon Web Services)

阿里P7亲自讲解!Android大厂面试真题解析大全

欢喜学安卓

android 程序员 面试 移动开发

全美第四大无线运营商 DISH 和亚马逊云科技开展战略合作

亚马逊云科技 (Amazon Web Services)

云计算时代,IT运维人员需要掌握哪些技术?会使用哪些运维工具?

行云管家

云计算 运维 操作系统

阿里P9看了都说牛B!阿里巴巴史上最牛的分布式核心原理深度解析全彩手册

Java架构追梦

Java 阿里巴巴 架构 面试 分布式核心原理解析

高并发应对策略系列文章阶段汇总,提供离线文档下载

Coder的技术之路

喜马拉雅亿级用户量的离线消息推送系统架构设计实践

JackJiang

消息推送 即时通讯 IM push

宜信数据中台全揭秘(一)数据中台整体介绍_开源_裴国强_InfoQ精选文章