网易严选如何打造数仓规范和评价体系?

2020 年 9 月 13 日

网易严选如何打造数仓规范和评价体系?

数据为王的时代,数据量从最初的几十 G,慢慢沉淀到几十 T,甚至几十 PB 的量。数据工程师,也从最初的 ETL 工程师慢慢成长为数据全栈工程师:采集、同步、模型、离线、实时、规范、平台、工具、产品、交互、保障、数据体系等等。

数据仓库,是我们数据工程师的无形产品,不同于可视化、交互型产品的评价体系:拥有比较明确的评价指标 MAU、DAU、GMV 等。数据仓库一直没有比较系统的评价体系,下面从概念 - 平台 - 规范的链路来介绍一下严选数据仓库,最后跟大家交流一下数据仓库的评价体系。

数据仓库基本架构

这里概览讲一下严选数据仓库的分层逻辑,下面是严选数仓的框架图:

数据仓库分层没有绝对的规范,适合的就是最好的,特别是企业已经有一个初版的数仓的时候,需要做好改造成本和可理解性之间的平衡。

以业务数据的流向划分,目前严选数据把模型分为三层,ods,dw 和 dm 层。其中 ods 是操作数据层,保留最原始的数据;dw 包含 dwd 和 dws 层,这两层共同组成中间层;dm 是应用层,基于 dw 层做汇总加工,满足各产品、分析师和业务方的需求。

  • ODS 层(操作数据层):不对外开放,把业务系统数据同步到数仓。数据格式保留业务系统的数据格式;目前主要通过 datahub 解析 binlog 来实现的,目前严选的 ods 层数据同步主要以全量数据为主。
  • DWD 层(明细层):对外开放,主要作用是沉淀一些公共的逻辑,常用维度属性的关联等,下游经常在一起使用的模型会在这一层做宽表处理,减少事实表和维表的关联,减少重复的关联加工。
  • DWS 层(汇总层):对外开放,主要沉淀严选数据的公共指标,dws 层是整个严选数据对外开放和使用的核心,是严选最核心的数据资产。
  • DIM 层(维表):对外开放,主要是一些常用维表,比如商品维表、sku 维表、渠道维表。
  • DM 层(应用层):对产品开放使用,支持数据产品、报表的使用,主要是不公用复杂指标的汇总和计算。

原文链接:【 https://www.infoq.cn/article/HFZRKT7ye6xFLGaZ9SEP 】。未经作者许可,禁止转载。

登录后可解锁全站优质内容

免费畅享技术公开课、顶尖技术团队访谈、一线互联网大厂技术实践

文章
视频
电子书
研究报告
立即登录
2020 年 9 月 13 日 20:17 1260

评论 1 条评论

发布
用户头像
这样的成本高么?
2020 年 09 月 14 日 16:12
回复
没有更多评论了
发现更多内容

组织协同-研发项目责任矩阵

飞哥

研发管理 团队组织

【week03】作业1

chengjing

【week03】总结

chengjing

第三周作业

芒夏

极客大学架构师训练营

中心化是人性,去中心化是技术

CECBC区块链专委会

区块链技术 去中心化 超级节点

融云 CTO 杨攀:出海社交娱乐项目的通信技术应用指南

Geek_116789

架构师训练营第三周 - 学习总结

Lost Horizon

极客大学架构师训练营

到底是什么让IT人如此苦逼???

不会笑青年

程序员 程序人生

当教育遇上区块链,会擦出什么样的火花?

CECBC区块链专委会

区块链技术 去中心化 防篡改 教育资源共享

第三周作业

戴维斯

极客大学架构师训练营

第三周作业

changtai

极客大学架构师训练营

【漫画】最近,老王又Get了CDN的新技能

巨侠说

CDN

用于可视化软件体系结构的C4模型(转载)

清风徐徐

一行一行源码分析清楚AbstractQueuedSynchronizer

猿灯塔

Java Netty 并发

8行代码的21问题: 如何有效Code Review?

zzj8704

Code Review 代码规范 可测性 CR常见规则 结构化CR

【架构师训练营 - 周总结 -3】设计模式、重构

小动物

总结 极客大学架构师训练营 第三周

架构师训练营 - 第 3 周学习总结

牛牛

极客大学架构师训练营 学习总结

奈学教育《百万架构师》课程大纲

古月木易

极客大学架构师训练营

第三周总结

andy

有益思考一则:概率与格局

石君

思考 思维方式 格局

项目交付二三事

飞哥

持续交付

架构师训练营第 3 周——学习总结

在野

极客大学架构师训练营

夏日一起“奥”!麥吉 machi machi奥利奥风味布蕾奶茶限量上市!

Geek_116789

奈学教育《大数据开发工程师》课程大纲

奈学教育

大数据

架构师训练营第 3 周 _ 学习总结

方舟勇士

课程总结

奈学教育《大数据开发工程师》课程大纲

古月木易

大数据

奈学教育《百万架构师》课程大纲

奈学教育

极客大学架构师训练营

元年云“宽能力”拓宽成长型企业数字化升级之路

人称T客

week3 学习总结

不在调上

极客大学架构师训练营

瓷都景德镇牵手蚂蚁区块链,重塑非遗陶瓷产业

CECBC区块链专委会

区块链技术 溯源 防篡改 景德镇 非遗

第三周作业

andy

众安黑客马拉松大赛总决赛-InfoQ小编探班

众安黑客马拉松大赛总决赛-InfoQ小编探班

网易严选如何打造数仓规范和评价体系?-InfoQ