OceaBase开发者大会落地上海!4月20日共同探索数据库前沿趋势!报名戳 了解详情
写点什么

网易严选 x 网易有数:数据产品 + 数据中台双引擎模式实践

  • 2021-07-09
  • 本文字数:4679 字

    阅读完需:约 15 分钟

网易严选 x 网易有数:数据产品+数据中台双引擎模式实践

作为一个“平台+品牌”双模式并存的电商品牌,网易严选(下文简称严选)的数据数据链路天然很长,这给数据化决策和数据化运营带来了不一样的挑战,严选如何打造数据支撑体系支撑业务发展?在 6 月 19 日的“网易数帆技术沙龙”上,网易数帆大数据产品专家顾平分享了网易严选数据产品建设实践心得,以及支撑数据产品建设的一些难点难题的解决策略。自 2017 年开始,顾平作为数据产品负责人参与了从 0 到 1 建设整个严选据产品体系和数据中台,历经 3 年时间打磨,严选数据产品和数据中台已经非常成熟。


严选的模式,从供应端商品的设计、研发、生产一直到最后的消费端,整个链路都有数据,严选通过商品数据运营平台、营销数据运营平台、移动数据工作台和供应链数据运作平台等 4 种数据产品驱动全链路的业务。需要注意的是,数据产品下面一定要有数据中台中台去支撑,否则我们没办法做到数据产品的高效研发和数据质量,这是一种双引擎的模式,数据产品和数据中台,是数据双引擎

数据产品:聚焦商品、营销与供应

网易定义的数据产品,是一类既反映分析思路又能与业务系统联动的决策型产品。数据产品最基础是实现可视化,在这个基础上还要去实现决策建议,比如说监控诊断,最终可能要去驱动决策,比如说这个数据产品里面的一份数据,可以直接同步到业务系统里面,生成采购单。对于数据中台来说,主要是提供高效的高质量的数据服务,来支撑上面的数据产品和业务系统。


严选组织架构主要有商品中心、营销中心和供应链中心,数据产品也是围绕这三大中心,针对不同的用户去开发的。针对营销中心的数据产品,叫伏羲-营销数据运营平台,负责消费者的数字化运营。针对供应链中心,我们有一个叫河洛-供应链数据运作平台,负责数字化供应。针对商品中心,有大麦-商品数据运营平台,面向我们商品中心里面各个商品 BU。中间这一块是负责数字化管理的移动数据工作台,它的核心目标用户是管理层,但也开放给所有的业务部门。它是一个移动端产品,使用非常方便。



严选做的第一款数据产品是做移动数据工作台。因为数据中台或者数据产品最好是自上而下来做,让领导意识到数据的重要性,让他看到可以优化决策,他才能帮助推广数据产品,支持数据团队去做更多的东西。其实严选移动数据工作台最重度的用户就是严选 CEO,他的访问量是第二名的两倍多


严选移动数据工作台是基于 H5,在严选 APP 这个壳的基础上面去增加了一些入口,有针对商品、销售、用户、流量等核心数据,也包括了 KPI 的实现情况,整个业务的监控都会在这里面。


结合严选 APP 做的好处是非常直观。这里面还有一个流量地图,开启之后,在 APP 界面中的每一个模块上面都会有一个半透明浮层,展示各个模块素材的点击量、转化率以及对销售的贡献,非常直观,业务都非常喜欢用这样的东西。


供应链数据运作平台的理念是需求驱动供应。因为严选连接了消费和制造商,对于供应链数据运作平台,核心就是把严选侧的销售计划、需求计划共享给供应商,严选专门为供应商制作了一个平台(业务系统),我们把数据输出到那个系统里面去,使得所有的供应商都能在那里面共享到我们的数据,知道我们的计划是怎么样的,可以提前去生产排程。


供应链数据运作平台如果要定一个核心 KPI,那就是库转,我们应该让库转在一个合理的范围内,所以它核心要解决的问题是商品在什么时间点采多少量,它需要有需求计划之类的东西,还有一些规则,比如安全库存是多少,这个商品如果让制造商去开发了,他的开发周期是多少,这些数据我们都需要知道,才能够定义出一个商品应该在什么时间点采多少量,这里面更多的是业务知识和规则


关于监控诊断,这是我们面向商品中心的大麦产品中的监控诊断,我们可以直接展示出哪些商品慢动销了,哪些库存高了,销量下跌了,有多少商品涉及到这些问题,这些异常情况都可以直接展现出来。如果业务方还要想要继续了解这里面到底是什么原因造成的,我们可以有这种类似于拓扑图的分析,让它直接去定位原因,所以它既是个工具,同时也沉淀了知识。


数据中台:围绕高效、高质量构建

严选对于数据中台的定义,是高效的高质量的赋能数据前台的一系列的数据系统和数据服务的组合。如下是我们数据中台全景图,最上面那层黄的是数据应用层(即数据前台),包括了前面讲的数据产品和业务系统,因为业务系统也会用我们的数据。



还有有数 BI,分析师用有数 BI 生产出来的一些报表,也是属于数据应用的范围。但是有数 BI 这个平台本身是一个敏捷分析的工具,所以我们把它放到了数据中台体系里面。绿色的部分是数据服务,它的核心服务对象是数据产品和业务系统。下面是围绕数仓的管理体系。蓝色区域整块都是基于网易有数去实现的数据中台体系。


高效高质量的实践,首先看高效分析,严选是基于有数 BI 实现的。大家在做数据产品的时候会发现一个问题,做了一个数据产品给业务用,结果数据需求接踵而来,研发都来不及,这个时候我们需要有一个高效交付的方案,让分析师或者业务方能够自助地去完成这些事情,我们把数仓建设好,分析师或业务自己来使用数据。严选的模式是分析师做报告,业务方提需求,所以在 BI 这块,底下是我们的数仓,分析师用数仓里面的数据,在有数上面去做报表出来,提供给业务人员。现在整个严选有数(网易有数·BI 在严选的私有部署)的用户有 900 多人,每天的 UV 要达到 400 多,有 8 万个图表。


具体而言,当我们的分析师收到需求的时候,他会通过有数大数据开发及管理平台提供的指标地图去找这个指标,已经实现了,就拿来直接用,如果还没有,他就提需求给我们的数据开发,然后来定义这个指标(指标定义的流程后文再讲)。数据开发去会利用我们有数的大数据开发及管理平台去进行一个主题域建设。建设过程其实做需求的过程,这是一个螺旋式上升的过程。


通过这个平台数据开发很容易就把需求给做出来,然后分析师用有数 BI 去进行可视化建模,他不需要写代码,本质上它设计的是面向业务的,可以快速完成一个模型,然后通过类似于制作 PPT 的方式去探索和实现数据的可视化。BI 主要是用来高效分析的,核心的价值就在于能够非常高效地迭代,通常上午来的需求下午就能出报表。



数据产品的高效交付,第一种方式,我们借用 BI 里面集成的功能实现,就是说把需求转嫁到 BI 上面,通过 BI 当天就可以把报告做出来,然后通过集成的 API 直接把它集成到我们的数据产品或者是业务系统上面去。现在我们移动数据工作台里面已经有 20 多个报表被集成进去了,基本上都是 CXO 的紧急需求,所以交付要比较高效,很多时候小半天就能交付了,用户对这种高效交付是非常满意的。


另外一种方式是说我们真的要高效研发,我们构建了一个统一查询服务,这个服务其实就只有一个 API,数据需求来了之后,通过它我们只要去设计模型就可以了,这就是“模型即服务”,对于数据产品或业务系统来讲,他完全不用关心这个模型到底用了什么库什么表,只需要关心接口输入。


通过这一层,我们不仅仅把数据带出去,还把指标定义也带出去,这样的一个好处是,不管在数据产品里面还是在业务系统里面,但凡是用到了同一个指标,它的定义也是动态获取的,是统一的。严选现在有 70 多个系统在用我们的统一查询服务。


关于数据质量,我们主要来看下指标一致性的保障,指标一致性我们是怎么去解决的?可能大家都听说过指标管理系统,但是如果真的只有这么一个系统,其实它跟 wiki 或者其他文档系统没有什么本质上的差别。指标管理系统的本质上的差别在于,我通过这个系统跟我整个数据设计、开发、使用的流程全部打通,这才是它最核心的能力。


定义指标的时候,要统一定义,因为指标代表了一种数据需求更是一种业务知识,不能说随便就定义一个指标出来。在严选我们是数据产品经理和分析师一起来定义,我们拿到需求的时候,会一起商量这个指标应该怎么去具体定义。定义完成了之后,我们在有数大数据开发及管理平台里面的模型设计系统去设计它,设计完了之后才会去进行具体的开发。也就是说,我们数仓一定要先定义设计再去开发



最后一层就是统一的使用,通过指标地图,我们的用户可以很清楚地知道他需要的指标在数仓的哪个地方,分析师和业务也能知道这个指标具体的定义是什么。统一查询服务在提供数据服务的同时也把这个指标带进去了,因为在模型设计的时候,会去定义字段绑定到哪个指标,通过这种关系,指标贯穿打通了从数仓到应用层


所以同一个指标在应用层,不管是数据产品,还是业务系统,甚至是我们有数 BI(因为 BI 里面也可以动态引用这个定义),在任何一个场景下面,我们看到一个指标,它就是一个定义。我们的理念是说,不让分析师或者业务自己去开发口径,我们口径的计算逻辑基本上都落在 DW 层,是由数据开发根据指标定义统一开发的,应用层更多只是筛选汇总,这就最大限度地杜绝了相同的指标在不同地方的数据结果不一样的问题。

数据治理:平台、规范与考核都很重要

这里只讲数据治理的大概思路,严选数据治理是围绕数仓建设开展的,利用了整个大数据平台以及一系列的流程规范和考核优化机制。数据治理贯穿了整个数据的生命周期,从需求的评审就开始治理。



严选数据需求评审的时候,数据架构师、分析师、数据产品经理以及业务方通常都会参加。模型设计评审,数据架构师也会严格把关。到了任务开发,是一线的数据开发人员的责任,还有数据测试以及质量稽核、链路感知这些以及任务运维问题处理,这些流程在整个有数大数据平台里面,都是有相应的功能去落地的。


同时,还要定一个考核体系。严选核心考核的有三点,一个是跨层依赖率,这体现了数仓的建设水平。第二个是基线完成率,严选定义了很多基线,比如移动数据工作台,领导们都是 8 点左右就开始看数据了,所以移动数据工作台所有依赖的任务 7:30 时候一定要完成。第三个是有效响应平均时间,是指一旦出了问题,我们能不能在业务方发现之前把它解决掉。


任务需要常态优化,为什么是任务?因为很多问题,业务最终感知到的,就是我们的数据不对,产出晚,核心就这两点,比如说我们数据产品里面的这个指标不对,或者说今天这个时候没产出,这些问题追踪下来,最终都归结到任务上面,所以我们会有一些常态化的优化的机制来优化任务。


严选最近近 30 天的数据,跨层依赖率只有 0.97%,基线完成率 99.92%,有效平均响应时间是 0,因为最近 30 天没有什么报警,数据还是非常亮眼的。


有了上面的方法论和平台工具,真正在落地的时候,我们还是要去以项目的机制去做这件事情,就是专人负责,量化考核。对我们来说,数据治理核心的负责团队就是数仓团队,因为它是围绕数仓展开的。



架构师、数据开发本身有一个固定的职责,是要去建设主题域,这是最核心的一部分。我们还会有很多的虚拟项目小组,针对我们所定义的数据治理的一些 KPI 专门负责。因为如果不这么做,我们会发现任务永远都优化不了,会经常出问题。

总结

网易有数核心有两个产品,一个是 BI,一个是大数据开发及管理平台。基于大数据开发及管理平台,可以快速构建数据中台,包括数仓建设和一整套数据管理体系,并向外提供数据服务。数据服务可以为数据产品和业务系统提供数据。



有数 BI 可以提供自助式的高效分析,主要用里面的报告模块,做好的报告也可以集成到数据产品或者业务系统中。


此外,有数 BI 还有一个模块叫数据门户,企业如果没有严选那样的研发能力去开发单独的数据产品,就可以通过这个数据门户高效交付基于报告的数据产品。


作者简介

顾平,网易数帆大数据产品专家,7 年大数据从业经验,2017 年至 2020 年就职于网易严选,担任数据产品负责人,从 0 到 1 构建了网易严选的数据产品体系和数据中台体系。目前就职于网易数帆,担任网易有数·BI 产品负责人。


本文转载自:DataFunTalk(ID:dataFunTalk)

原文链接:网易严选 x 网易有数:数据产品+数据中台双引擎模式实践

2021-07-09 07:002156

评论

发布
暂无评论
发现更多内容

10分钟开发Kubernetes Operator

俞凡

架构 Kubernetes 云原生

32天高效突击:狂刷《Java权威面试指南(阿里版)》,offer拿到手软!

Geek_0c76c3

Java 数据库 开源 程序员 开发

易操作、可观测、可扩展,EMQX如何简化物联网应用开发

EMQ映云科技

运维 物联网 IoT emqx 10月月更

如何优雅地编写一个高逼格的JS插件?

茶无味的一天

JavaScript 前端 js JS插件

企业社会责任先行,公益课程推动环保科普教育

科技之家

Google 发布:DevOps 2022现状报告

SEAL安全

DevOps 研发效能 软件交付 软件供应链

旺链科技入选2022“科创中国”创新成果名单

旺链科技

区块链 金融科技 产业区块链

软件测试 | 测试开发 | Java or Python?测试开发工程师如何选择合适的编程语言?

测吧(北京)科技有限公司

测试

欢迎海天起点加入openGauss社区

openGauss

如何使用流程 中的 DataObject 并为流程设置租户

江南一点雨

Java springboot workflow flowable

openGauss 社区 2022 年 9 月运作报告

openGauss

携手武汉白鱀豚保护基金会,英特尔以责任为先多举推动环保公益

科技之家

干货|仅需3步完成酷炫数据可视化大屏制作!

云智慧AIOps社区

大前端 低代码 数据可视化 智慧大屏可视化 可视化大屏

带你认识什么是“回流重绘”

华为云开发者联盟

html 前端 浏览器 企业号十月 PK 榜

啃完这些Spring知识点,我竟吊打了阿里面试官(附面经+笔记)

Geek_0c76c3

Java 数据库 开源 面试 开发

知道了web的攻击方式,还不快防起来?

CoderBin

前端 安全 10月月更

独家巨献!阿里技术专家兼Github贡献者,整理的Spring Security入门到成神

Geek_0c76c3

Java 数据库 开源 程序员 开发

欢迎数造科技加入openGauss社区

openGauss

云图说丨带你了解GaussDB(for Redis)双活解决方案

华为云开发者联盟

数据库 数据资产 云数据库 企业号十月 PK 榜

你好,广州!openGauss广州用户组招募计划正式开启

openGauss

说说 Spring 定时任务如何大规模企业级运用

阿里巴巴云原生

spring 阿里云 云原生

openGauss 3.1.0版本正式发布 | 七个方面全面增强

openGauss

算法统治者!打破传统方式,即将爆火的Leetcode刷题指南

Geek_0c76c3

Java 数据库 开源 程序员 开发

大数据ELK(十九):使用FileBeat采集Kafka日志到Elasticsearch

Lansonli

Filebeat 10月月更

【活动报名】共建云原生开源生态 PolarDB × Curve 线下 Meetup 来袭!(杭州站)

阿里云数据库开源

数据库 阿里云 开源 polarDB

SQL抽象语法树及改写场景应用

京东科技开发者

sql SQL优化 场景应用 SQL语言 抽象语法树

软件测试 | 测试开发 | Google 测试总监聊如何经营成功的测试职业生涯

测吧(北京)科技有限公司

测试

“智领医疗 数创未来”活动成功举办,海量数据携手openGauss为医疗数字化创新赋能

openGauss

OpenHarmony有氧拳击之应用端开发

OpenHarmony开发者

OpenHarmony

defi质押挖矿存币生息理财系统开发

开发微hkkf5566

创新公司iLabService 释普科技启示录

B Impact

网易严选 x 网易有数:数据产品+数据中台双引擎模式实践_大数据_DataFunTalk_InfoQ精选文章