活动邀约 | 5月24日来交流AGI时代数据资产如何价值最大化? 了解详情
写点什么

将 ETL 任务减少 30%,指标中台究竟是什么?

  • 2022-03-22
  • 本文字数:3343 字

    阅读完需:约 11 分钟

将ETL任务减少30%,指标中台究竟是什么?

经过一二十年的 IT 建设,很多企业已经从“没有数据”发展到了“数据太多”的阶段。如今,各行各业正在由过去粗放式的增长向数据支撑的精细化运营转型,但随之而来的是 ETL 任务的激剧膨胀,整个数仓可能充斥着几百万张表。无数个 ETL 任务的重复性工作,带来的不仅是存储问题,不断被消耗的数据集群资源使大家面临着更加严峻的挑战,维持这些数据应用模式,传统方法已经捉襟见肘。

 

为什么传统方法过时了

 

自“数仓”在 1980 年开始被提出来到现在,数据基础架构已经经历了不同的变化,从集中式向着分布式演进。

 


(图片来源:Kyligence)

 

集中式的基础架构演进了几轮,但都是把业务系统的数据从各个地方汇集过来,规整完成、标准化完成,再存起来放在一个地方。然而在过去的一到两年,行业开始出现了一个更大的变化——尤其是去中心化,它已经成为了当下最热且发展最快的基础架构变化,在整个数仓的方向上,去中心化是如今云和 SaaS 时代的未来。去中心化意味着不再按原来的数据仓库的方式收集数据,而是能够连接到不同的数据源,实时地把数据汇过来,去服务一定的数据服务的应用。

 


(图片来源:Kyligence)

 

在过去企业构建 IT 基础设施的过程中,逐渐形成了各种烟囱式的数据设施,也给大家带来了数据孤岛的问题。数据上云、湖仓一体化都可以很好地解决了数据孤岛的问题,让企业内部的指标管理更统一,数据接口更标准,分析更自助。但一线业务和数据分析人员面临着一些其它方面的挑战:各企业的数字化建设在这一二十年里有了初步的成果,但是数据量巨大。在过去的几年里面,企业 CIO 们是非常焦虑的。很简单,如果你使用了一个中等规模以上的比如说 BI 或者是数字仓库的技术栈,你一定有几百到几千张的报表,每张报表如果有十个以上的指标,那就意味着有几万甚至几十万的业务指标,这些口径是不是统一?这些数据是不是在被人使用?这些相应的价值其实已经非常复杂了。

 


(图片来源:Kyligence)

 

更可怕的是整个的过程会让 ETL 任务和中间进行大量的膨胀。这不仅仅只是存储的问题,它带来更大的挑战在于,它有无数的 ETL 的任务其实在不断地做着重复性的工作,不断地消耗整个数据集群的资源。另外还存在口径不一致的问题,当用这些数据做一个管理决策的时候,需要有数据来参考,但各部门数据来源又可能存在分歧,比如这个部门说自己是从 Power BI 里看到的,另外一个部门说是从数仓里面拿到的数据,这就不能帮助企业做出高效的决策。

 

而每一张报表背后每运行一次,都可能涉及到几百甚至几千的费用,这就需要用管理的方法把这些报表的数量控制下来。所以企业需要进行数据治理,从几十万张报表中去掉重复、不准确的部分,与企业业务目标口径不对齐的部分,将剩下的做一些高度的统一,甚至在部门的生产线上拉齐认知。

 

这种转变,在 Kyligence 春季论坛活动的采访中,Kyligence CTO 李扬说:“这有点像 20 年前,大家刚切换到 ERP 电子化,从一些手动的办公能力上升到电子化的办公能力。那个时候就有一个 Business Process Re-engineering(BPR,企业流程再造)的说法,就是说你要上这个系统先得梳理自己的业务流程。业务流程不梳理好这个系统上也上不去,也没法提升管理能力。到现在,去中心化的发展后,一样也需要先将企业的指标,数字化运营的思路理清楚。如果讲不清业务目标、过程指标、结果指标,那就不知道拿什么追踪,拿什么来做数字化的管理。”

 

“这时发展指标中台就能帮助用户解决这个问题,最终出口可能还是 BI,但可以精准地以统一的口径快速帮管理者做出决策。从我们的实践来看,当一个企业需要进行管理改革或者业务变化的时候,指标中台就能反映出这个变化过程和结果,进而驱动整个公司的业务发展。这也是我们说的一个趋势点:以指标为核心进行公司的指标变革。”

 

指标中台能改善什么

 

过去的几年里,很多企业都在投入建设口径统一、自上而下的新型指标平台,来有效衡量业务经营和发展情况,真正实现数据赋能一线业务。Kyligence 在服务客户的过程中发现,由于一些中小型企业的 IT 管理人员并非大数据专业出身,因此在维持大数据系统的时候,会逐渐发现难度越来越大。很多大的企业经过一两年的数据治理之后大概会到 Muddy DW(混乱的数据仓库)这么一个阶段,其数仓中有非常多的表,而且原始数据可能只有几千张表,但各部门、各组织都非常有欲望地生产自己的数据指标,就会形成几百倍的放大。有的客户原始表经过宽表、聚合表,分析表等的加工处理以后甚至可以达到百万级别的表。这不仅会造成了数字口径不统一,拖慢了企业的决策,更是耗费了大量的 IT 资源。

 


(图片来源:Kyligence)

 

这种情况下,我们就需要改造它,在数据的入口保持不变的情况下,将提取指标的过程标准化,到接近服务再给到一线业务自由度再放开,所以这个过程在数据处理的路径上是收敛的,大家可以从面积上直观感受到背后所节省掉的 IT 的资源是非常可观的,从整个企业对数字指标化运营的统一逻辑来说也有一个很清晰的抓手。

 


 (图片来源:Kyligence)

 

另一方面,Kyligence 核心的能力是来自于多维数据库乃至 OLAP 的能力,所以其本质可以说是一个管理系统,即使客户指标完全存在一个数据集里面,包括度量和维度,再往上就是指标的平台本身,可实现自然的过渡。Kyligence 联合创始人兼 CEO 韩卿表示指标中台有助于解决企业管理上的挑战:“任何指标平台一定是一个管理系统,例如不同部门指标不统一、指标过时等等,都属于管理问题。”

 


Kyligence 指标中台解决方案

 

在 Kyligence 解决方案中,提供了指标管理引擎和指标计算查询引擎两大核心组件,该方案可以部署在任何分布式存储和计算环境下,比如像公有云环境、私有云、大数据平台等等,并支持与底层各类数据源实现对接,从而以此助力企业以指标为中心,构建整个数字化体系建设的方法论,建立数据管理共识,最终服务于企业管理目标。同时,企业在落地指标中台后,可以实现“边使用,边治理”,不断挖掘数据的价值。

 

指标中台的实施效果

 

众所周知,银行业一直走在信息化、数字化的前沿。近年来众多银行都在大力投入建设新型指标平台来实现口径统一的、自上而下的业务驱动的指标体系,实现数据赋能一线业务,全面推动银行数字化经营。

 

韩卿认为金融行业跟其他行业有一个不太一样的地方,在于金融行业整个 IT 建设相对比较成熟,如果完全按照过去整套的数仓理论进行构建的话,例如从整个原始数据到 ODS 到 ETL ,到数据仓库,到 BI 端等等,经过发展论证,这将不可避免带来数据沼泽或者说是混乱的状态。也就是说,口径不一致这方面的问题变得更加突出了。以前是没数据,现在是数据太多,需要通过指标的抓手去进行底层的梳理和相应的规整等,去做整个的数据治理来去降本增效。

 

例如自某股份制银行推动集团数字化战略以来,每个 BU 都在搞自己的数字化经营平台,导致数据需求爆增。同时,烟囱式建设导致口径不一,还带来了数据治理和人力成本等等的痛点。当 BI 平台报表就有 7000 多张,为了各类数据应用手工开发的汇总表高达 1 万多张的时候,随着数据需求的爆发,这些数据表、ETL 作业、BI 报表的开发维护工作量非常巨大,传统数据应用模式根本就无法持续。

 


(图片来源:Kyligence)

 

因此,经过分析并结合业界的经验教训,该银行提出了指标治理切入,通过指标治理推动数据治理,降低用户的用数门槛,从而赋能银行的数字化经营。在这次指标治理的思路当中,治理的重要抓手就是建设新型指标平台。在指标管理系统当中,基于维度模型,通过统一的指标定义派生、衍生,并结合全行规范化的指标需求管理,实现指标口径的统一。而指标的加工、计算以及查询,利用 Kyligence 的方案,基于 SQL 模版,自动进行智能建模,并完成指标的汇总、加工和计算。通过建设指标平台,将大量的指标需求转换为指标及指标看板的开发方式,降低业务用户制作报表的门槛与难度。

 

据悉,目前该平台的日均访问用户量已经达到了 5000 以上,页面查询访问量高达 20 万以上,尤其是指标数量,已经高达 1.1 万,其中大部分是用户自己派生和衍生出来的自定义指标。新的指标应用模式,使 50% 的报表需求可以基于指标和指标看板来支撑,同时还将 ETL 任务减少了 30% 以上。通过指标平台的建设,能够帮助该银行推动数据治理,基于指标平台将企业数据资产实现了广泛的共享。

 

2022-03-22 15:038882

评论 2 条评论

发布
用户头像
airbyte 反向ETL了解一下
2022-09-14 11:03 · 浙江
回复
用户头像
Kyligence构建引擎/查询引擎 开源吗
2022-03-28 16:27
回复
没有更多了
发现更多内容

PCB生产工艺|主流程之AOI,华秋一文读懂其子流程

华秋电子

React源码分析8-状态更新的优先级机制

goClient1992

React

react源码中的生命周期和事件系统

flyzz177

React

GAIDC 2023盛会迎来大模型论坛“主场”,百度飞桨护航大模型产业发展

飞桨PaddlePaddle

深度学习 飞桨

一个诡异的 Pulsar InterruptedException 异常

小小怪下士

Java 程序员 后端

运联智库发布跨境电商物流50强排行榜

联营汇聚

什么是物联网?常见IoT 物联网协议最全讲解——基础知识

阿里云AIoT

人工智能 安全 前端开发 网络协议 传感器

透明led显示屏的应用指南

Dylan

LED LED display LED显示屏

阿里前端二面经典手写面试题汇总

helloworld1024fd

JavaScript 前端

2023前端二面经典手写面试题

helloworld1024fd

JavaScript 前端

vue的两种服务器端渲染方案

京东科技开发者

Vue 服务端 nextjs nuxt 渲染方案

react源码分析:实现react时间分片

flyzz177

React

react源码分析:babel如何解析jsx

flyzz177

React

解析关于Tomcat Servlet-request的获取请求参数及几种常用方法

华为云开发者联盟

开发 华为云 企业号 2 月 PK 榜 华为云开发者联盟

js函数柯里化-面试手写版

helloworld1024fd

JavaScript 前端

聊聊火出圈的ChatGPT

江湖修行

人工智能 AI ChatGPT

React源码分析8-状态更新的优先级机制

goClient1992

React

飞桨-鹏城云脑发行版亮相第四届启智开发者大会,软硬一体化助力科研

飞桨PaddlePaddle

深度学习 paddle 飞桨

MIAOYUN 2023年度战略共识会

MIAOYUN

战略共识 战略会

一步步实现React-Hooks核心原理

helloworld1024fd

JavaScript 前端

华为Push用户增长服务:精准触达,加速增长

HMS Core

HMS Core

实现一个简单的Database12(译文)

GreatSQL

sqlite greatsql greatsql社区

建议收藏,2023互联网大厂Java面试1210道题全解析

架构师之道

java面试

瓴羊Quick BI移动端自助分析功能受追捧

巷子

从React源码分析看useEffect

goClient1992

React

IoT设备身份三元组烧录方案汇总——实践类

阿里云AIoT

阿里云 物联网 IoT

AIGC的隐私安全问题及隐私保护技术 | 社区征文

京东科技开发者

隐私计算 语言模型 ChatGPT 企业号 2 月 PK 榜 LLM

佳杰云星:基于鲲鹏DevKit开发多云管理平台,云资源综合管理能力提升约25%

Geek_2d6073

从 Netflix 传奇看,结果导向的产品路线图如何制定?

LigaAI

敏捷开发 研发管理 技术管理 成长路线图 企业号 2 月 PK 榜

HarmonyOS Connect “Device Partner”专场FAQ来啦!

HarmonyOS开发者

HarmonyOS

瓴羊Quick BI可视化大屏功能强劲

对不起该用户已成仙‖

将ETL任务减少30%,指标中台究竟是什么?_大数据_Tina_InfoQ精选文章