NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

将 ETL 任务减少 30%,指标中台究竟是什么?

  • 2022-03-22
  • 本文字数:3343 字

    阅读完需:约 11 分钟

将ETL任务减少30%,指标中台究竟是什么?

经过一二十年的 IT 建设,很多企业已经从“没有数据”发展到了“数据太多”的阶段。如今,各行各业正在由过去粗放式的增长向数据支撑的精细化运营转型,但随之而来的是 ETL 任务的激剧膨胀,整个数仓可能充斥着几百万张表。无数个 ETL 任务的重复性工作,带来的不仅是存储问题,不断被消耗的数据集群资源使大家面临着更加严峻的挑战,维持这些数据应用模式,传统方法已经捉襟见肘。

 

为什么传统方法过时了

 

自“数仓”在 1980 年开始被提出来到现在,数据基础架构已经经历了不同的变化,从集中式向着分布式演进。

 


(图片来源:Kyligence)

 

集中式的基础架构演进了几轮,但都是把业务系统的数据从各个地方汇集过来,规整完成、标准化完成,再存起来放在一个地方。然而在过去的一到两年,行业开始出现了一个更大的变化——尤其是去中心化,它已经成为了当下最热且发展最快的基础架构变化,在整个数仓的方向上,去中心化是如今云和 SaaS 时代的未来。去中心化意味着不再按原来的数据仓库的方式收集数据,而是能够连接到不同的数据源,实时地把数据汇过来,去服务一定的数据服务的应用。

 


(图片来源:Kyligence)

 

在过去企业构建 IT 基础设施的过程中,逐渐形成了各种烟囱式的数据设施,也给大家带来了数据孤岛的问题。数据上云、湖仓一体化都可以很好地解决了数据孤岛的问题,让企业内部的指标管理更统一,数据接口更标准,分析更自助。但一线业务和数据分析人员面临着一些其它方面的挑战:各企业的数字化建设在这一二十年里有了初步的成果,但是数据量巨大。在过去的几年里面,企业 CIO 们是非常焦虑的。很简单,如果你使用了一个中等规模以上的比如说 BI 或者是数字仓库的技术栈,你一定有几百到几千张的报表,每张报表如果有十个以上的指标,那就意味着有几万甚至几十万的业务指标,这些口径是不是统一?这些数据是不是在被人使用?这些相应的价值其实已经非常复杂了。

 


(图片来源:Kyligence)

 

更可怕的是整个的过程会让 ETL 任务和中间进行大量的膨胀。这不仅仅只是存储的问题,它带来更大的挑战在于,它有无数的 ETL 的任务其实在不断地做着重复性的工作,不断地消耗整个数据集群的资源。另外还存在口径不一致的问题,当用这些数据做一个管理决策的时候,需要有数据来参考,但各部门数据来源又可能存在分歧,比如这个部门说自己是从 Power BI 里看到的,另外一个部门说是从数仓里面拿到的数据,这就不能帮助企业做出高效的决策。

 

而每一张报表背后每运行一次,都可能涉及到几百甚至几千的费用,这就需要用管理的方法把这些报表的数量控制下来。所以企业需要进行数据治理,从几十万张报表中去掉重复、不准确的部分,与企业业务目标口径不对齐的部分,将剩下的做一些高度的统一,甚至在部门的生产线上拉齐认知。

 

这种转变,在 Kyligence 春季论坛活动的采访中,Kyligence CTO 李扬说:“这有点像 20 年前,大家刚切换到 ERP 电子化,从一些手动的办公能力上升到电子化的办公能力。那个时候就有一个 Business Process Re-engineering(BPR,企业流程再造)的说法,就是说你要上这个系统先得梳理自己的业务流程。业务流程不梳理好这个系统上也上不去,也没法提升管理能力。到现在,去中心化的发展后,一样也需要先将企业的指标,数字化运营的思路理清楚。如果讲不清业务目标、过程指标、结果指标,那就不知道拿什么追踪,拿什么来做数字化的管理。”

 

“这时发展指标中台就能帮助用户解决这个问题,最终出口可能还是 BI,但可以精准地以统一的口径快速帮管理者做出决策。从我们的实践来看,当一个企业需要进行管理改革或者业务变化的时候,指标中台就能反映出这个变化过程和结果,进而驱动整个公司的业务发展。这也是我们说的一个趋势点:以指标为核心进行公司的指标变革。”

 

指标中台能改善什么

 

过去的几年里,很多企业都在投入建设口径统一、自上而下的新型指标平台,来有效衡量业务经营和发展情况,真正实现数据赋能一线业务。Kyligence 在服务客户的过程中发现,由于一些中小型企业的 IT 管理人员并非大数据专业出身,因此在维持大数据系统的时候,会逐渐发现难度越来越大。很多大的企业经过一两年的数据治理之后大概会到 Muddy DW(混乱的数据仓库)这么一个阶段,其数仓中有非常多的表,而且原始数据可能只有几千张表,但各部门、各组织都非常有欲望地生产自己的数据指标,就会形成几百倍的放大。有的客户原始表经过宽表、聚合表,分析表等的加工处理以后甚至可以达到百万级别的表。这不仅会造成了数字口径不统一,拖慢了企业的决策,更是耗费了大量的 IT 资源。

 


(图片来源:Kyligence)

 

这种情况下,我们就需要改造它,在数据的入口保持不变的情况下,将提取指标的过程标准化,到接近服务再给到一线业务自由度再放开,所以这个过程在数据处理的路径上是收敛的,大家可以从面积上直观感受到背后所节省掉的 IT 的资源是非常可观的,从整个企业对数字指标化运营的统一逻辑来说也有一个很清晰的抓手。

 


 (图片来源:Kyligence)

 

另一方面,Kyligence 核心的能力是来自于多维数据库乃至 OLAP 的能力,所以其本质可以说是一个管理系统,即使客户指标完全存在一个数据集里面,包括度量和维度,再往上就是指标的平台本身,可实现自然的过渡。Kyligence 联合创始人兼 CEO 韩卿表示指标中台有助于解决企业管理上的挑战:“任何指标平台一定是一个管理系统,例如不同部门指标不统一、指标过时等等,都属于管理问题。”

 


Kyligence 指标中台解决方案

 

在 Kyligence 解决方案中,提供了指标管理引擎和指标计算查询引擎两大核心组件,该方案可以部署在任何分布式存储和计算环境下,比如像公有云环境、私有云、大数据平台等等,并支持与底层各类数据源实现对接,从而以此助力企业以指标为中心,构建整个数字化体系建设的方法论,建立数据管理共识,最终服务于企业管理目标。同时,企业在落地指标中台后,可以实现“边使用,边治理”,不断挖掘数据的价值。

 

指标中台的实施效果

 

众所周知,银行业一直走在信息化、数字化的前沿。近年来众多银行都在大力投入建设新型指标平台来实现口径统一的、自上而下的业务驱动的指标体系,实现数据赋能一线业务,全面推动银行数字化经营。

 

韩卿认为金融行业跟其他行业有一个不太一样的地方,在于金融行业整个 IT 建设相对比较成熟,如果完全按照过去整套的数仓理论进行构建的话,例如从整个原始数据到 ODS 到 ETL ,到数据仓库,到 BI 端等等,经过发展论证,这将不可避免带来数据沼泽或者说是混乱的状态。也就是说,口径不一致这方面的问题变得更加突出了。以前是没数据,现在是数据太多,需要通过指标的抓手去进行底层的梳理和相应的规整等,去做整个的数据治理来去降本增效。

 

例如自某股份制银行推动集团数字化战略以来,每个 BU 都在搞自己的数字化经营平台,导致数据需求爆增。同时,烟囱式建设导致口径不一,还带来了数据治理和人力成本等等的痛点。当 BI 平台报表就有 7000 多张,为了各类数据应用手工开发的汇总表高达 1 万多张的时候,随着数据需求的爆发,这些数据表、ETL 作业、BI 报表的开发维护工作量非常巨大,传统数据应用模式根本就无法持续。

 


(图片来源:Kyligence)

 

因此,经过分析并结合业界的经验教训,该银行提出了指标治理切入,通过指标治理推动数据治理,降低用户的用数门槛,从而赋能银行的数字化经营。在这次指标治理的思路当中,治理的重要抓手就是建设新型指标平台。在指标管理系统当中,基于维度模型,通过统一的指标定义派生、衍生,并结合全行规范化的指标需求管理,实现指标口径的统一。而指标的加工、计算以及查询,利用 Kyligence 的方案,基于 SQL 模版,自动进行智能建模,并完成指标的汇总、加工和计算。通过建设指标平台,将大量的指标需求转换为指标及指标看板的开发方式,降低业务用户制作报表的门槛与难度。

 

据悉,目前该平台的日均访问用户量已经达到了 5000 以上,页面查询访问量高达 20 万以上,尤其是指标数量,已经高达 1.1 万,其中大部分是用户自己派生和衍生出来的自定义指标。新的指标应用模式,使 50% 的报表需求可以基于指标和指标看板来支撑,同时还将 ETL 任务减少了 30% 以上。通过指标平台的建设,能够帮助该银行推动数据治理,基于指标平台将企业数据资产实现了广泛的共享。

 

2022-03-22 15:038849

评论 2 条评论

发布
用户头像
airbyte 反向ETL了解一下
2022-09-14 11:03 · 浙江
回复
用户头像
Kyligence构建引擎/查询引擎 开源吗
2022-03-28 16:27
回复
没有更多了
发现更多内容

10分钟了解Flink

代码诗人

Nginx 基础原理和命令行的真相

子杨

nginx 运维

Mysql常用删除方式比较

云也退

MySQL

Server Queue 提高 QPS

风含叶

Python kafka 后端 队列

游戏夜读 | 改写图形API的意义

game1night

“Plus Token”传销主犯被公诉!警惕,区块链不是“取款链”!

CECBC

1024讲话 CECBC 区块链技术 人才发展 培训

GrowingIO 大数据多维分析自动化测试实践

GrowingIO技术专栏

大数据 自动化测试 parewise

Nginx 入门及命令行操作

子杨

nginx 运维

一个在游戏行业摸爬滚打了十几年的人,为何我对这本书情有独钟

图灵社区

游戏开发 游戏制作 世嘉培训教材

Android 通过opencv实现人脸识别,追踪

sar

android OpenCV 人脸识别

kudmp介绍和安装

唯爱

Weex开发:页面跳转以及Android端多应用选择窗口的处理

AR7

android Vue 大前端 跨平台 Weex

你有信息焦虑症吗?

Neco.W

学习 创业 知识体系

2020智源-京东多模态对话挑战赛开战 产学研联合推动AI技术发展

DT极客

为什么你要学习 Go?

司徒公子

编程语言 谷歌Google Go 语言

奈学干货分享:分布式CAP实践分析

奈学教育

分布式

基于 Markdown 的中文文档排版规范

Murphy

markdown 排版规范 GitHub GFM 物联网学前班

备案问题汇总

云也退

网站 备案

ARTS_20200529

凌轩

Java ARTS 打卡计划

卧槽,接到一个阎王的需求

码农神说

程序员

幂等问题及解决方案

Joker

幂等 解决方案

我们可能都误解了什么是情商

董一凡

情绪

阿里巴巴为什么让初始化集合时必须指定大小?

王磊

Java 性能

Cassandra可调一致性的使用及原理

老任物联网杂谈

大数据 分布式 Cassandra 可调一致性

用户故事为什么要关联开发数据?

Worktile

敏捷开发 开发数据

神经网络中为什么不能将权重初始值设置为一样的值

王坤祥

神经网络 学习

探索 Go 语言数据类型的内部实现

TuringTuring

内存模型 高效 Go 语言

架构师训练营0期开营

刁架构

架构师

从位图到布隆过滤器

王坤祥

位图 布隆过滤器

「首度揭秘」大规模HPC生产环境 IO 特征

焱融科技

sds io 高性能 存储 焱融科技

工厂模式(三)泛型工厂的概念以及示例代码

LSJ

将ETL任务减少30%,指标中台究竟是什么?_大数据_Tina_InfoQ精选文章