红帽白皮书新鲜出炉!点击获取,让你的云战略更胜一筹! 了解详情
写点什么

顺丰数据中台是怎样炼成的?专访顺丰科技大数据总监蔡适择

  • 2022-07-25
  • 本文字数:2652 字

    阅读完需:约 9 分钟

顺丰数据中台是怎样炼成的?专访顺丰科技大数据总监蔡适择

顺丰高速发展背后隐藏巨大阻力,各领域的数据问题成为顺丰精细化经营的最大困境,主要体现在核心业务线 O 线、M 线、F 线、H 线跨领域数据共享困难、数据服务时效性不足、数据质量问题、分析口径不统一和缺乏对数据的深度分析和挖掘。

 

而为了解决这样的问题,顺丰内部推动了数据中台项目,旨在打通内部数据的使用效率。数据中台作为集团最核心技术系统之一,如何构建其架构体系,如何在实际业务场景进行落地?本次采访了顺丰科技大数据总监蔡适择老师,来讲讲相关实战经验。

 

2022 年 8 月 18-19 日北京ArchSummit全球架构师峰会上,也设置了大数据治理专题,感兴趣的可以查看会议日程,来自字节跳动、快手、美团、网易的嘉宾,将分享 LakeHouse、流批一体等内容,欢迎关注。

 

InfoQ:蔡老师,您目前负责顺丰大数据平台底盘建设及产品化工作,完成顺丰大数据平台从 0 至 1 的整个建设过程。数据平台建设之前,顺丰内部的数据是一种什么样的状况?有哪些阻力?

 

蔡适择:在建设统一平台之前,数据是分散到各个独立的组织中,且各组织的数据想要共享比较困难,所以以前也有大数据,但它是一个个的数据孤岛,对业务的助力也仅仅是做一些报表,数据的需求则要由指定的人在指定的机器上编写指定的脚本来满足,交付效率低。

 

建设统一的平台,最大的挑战在于如何在满足信息安全的同时,对全域数据进行拉通与融合,并以开放自助的方式来大幅提升交付效率,而顺丰的数据又是相对来说比较敏感的,所以信息安全的思维惯性反而在当时成为了最大的阻力。

 

InfoQ:顺丰数据中台建设经过了哪几个阶段?建设之初,做了哪些架构层面的规划?

 

蔡适择:大体来说,可以分为三个阶段吧,第一个阶段算是开荒期,重点是做统一平台、统一工具、统一数据湖,在数据安全、可扩展性、数据共享上做了较为细致的规划,基本奠定了整体的平台服务基础。

 

第二阶段算是整合期,基于顺丰多元化战略的契机,在多租户模式下数据融合、数据协同开发、数据资产线上化上给予重点突破,让数据开发效率有大幅的提升,反映到业务中,就是数字指导经营基本深入到了业务各条线。

 

第三阶段一直持续至今天,我们称之为治理期,经过多年的数据野蛮增长,平台沉淀了不少数据,但数据的质量、数据的复用性、数据口径的统一却常常未达预期,因此需要对其进行深度的治理,在此期间,重点推进数据标准与质量、数据开发规范、平台数据运营工作,并在底盘架构上进行云原生、多机房、实时化改造,让全集团的数据人员深度参与,让顺丰的数据中台在数据质量、数据共享、数据应用效率上有质的提升。

 

InfoQ:数据中台建设之前,一直存在的“跨领域数据共享困难、数据服务时效性不足、数据质量问题、分析口径不统一和缺乏对数据的深度分析和挖掘”这些问题,在中台建设之后,已经完全解决了嘛?在业务上的效果如何?

 

蔡适择:这些问题完全解决是不太可能的,但对比以前,算是有质的飞跃。

 

  • 比如跨领域数据共享,我们在保障数据安全合规的情况下,通过数据标准、研发标准,以及底盘逻辑化改造,基本解决掉曾经或潜在的共享障碍;

  • 在数据时效性上,我们通过自建的数据开发平台、实时数据湖能力、湖仓一体的能力,让数据时效提升变得轻松且低成本;

  • 在数据质量上,经过多年的数据标准沉淀及数据质量平台的建设,让数据质量问题得以及时发现、及时处理,有效地提升数据质量,并基于数据指标平台及建模工具,在数据标准、数出一孔方面得以大幅保障,基本改善了口径不统一的情况。

 

从业务效果上来总结,让用户搜不到、找到不可用、查到不敢信等数据问题基本得到解决。

 

InfoQ:数据中台在实际业务场景进行落地的时候,遇到了哪些技术上,或者内部推动上的困难?例如跨领域共享、指标时效、数据治理、团队协同及跨云计算等问题。又是如何解决的?

 

蔡适择:能用技术解决的问题都不能算是大的问题,最大的困难还是在于内部推动上,数据共享、多人协同开发、数据标准化都是需要跨组织拉通,并推动对现有的内容进行改造的,对现有业务的影响如何避免、改造后的短期收益不明显都是明显的障碍,因此需要从上往下推行,需要在高层上就取得一致的共识与支持才能进行下去。所以顺丰的数据中台能够顺利推进,最大的因素还是因为管理层有坚定的决心,且取得了一致的共识。

 

当然,在技术上还是有一定的挑战的,比如数据实时化,让研发写专业的代码肯定也是可以实现的,但这成本高、灵活性低。因此我们需要在实时数据湖、实时数据开发平台上做深度的低门槛化,才能让数据实时化得以大幅推进;再比如跨云计算,因为随着业务用数的人越来越多、用户自助分析的需求越来越大,且物流快递行业是具有明显的高峰低谷时期,算力需求的不稳定性是比较突出的,因此我们通过对大数据底盘架构做深度改造,在存算分离、精细化缓存、跨机房精细调度等方面进行深度研发,并与公有云打通,借助公有云的弹性能力,让计算按需弹性到公有云,在平衡成本的情况下,有效地保障了不稳定的算力需求。

 

InfoQ:在您看来,顺丰数据治理体系的关键理念是什么?又是如何践行的?

 

蔡适择:一套数据治理体系、一个数据中台、N 个应用,要践行这样的理念,首先需要管理层有深刻的共识,让事情能推下去;其次,平台及工具要足够地简单与透明,让用户愿意配合;最后,要有配套的数据运营,即需要有一条鞭子,确保标准规范得以落地,并让数据的价值得以数字化显现。

 

InfoQ:数据中台建设,及应用落地的经验,对快递行业发展有什么借鉴经验可以传播的?

 

蔡适择:要有数据标准、要关注数据质量。快递行业是一个“人多、车多、货多、场多、环节多”的业务场景,如果全靠人管,没有全局的数据支撑,效率必将大打折扣,一个相对完备的数据中台,不仅仅能够让管理者及时发现业务问题、调整战略方向,还能让经营精细化、物流智能化得以推进,但这么多的环节对接、这么多的人工操作,数据质量问题是最容易出现且又最容易被忽视的,而一个有众多数据质量问题的数据中台,是没有可能成功的。

讲师简介

蔡适择,顺丰科技有限公司大数据总监。负责顺丰大数据平台底盘建设及产品化工作,完成顺丰大数据平台从 0 至 1 的整个建设过程,之前负责京东实时计算平台从 0 至 1 的整体建设。在大数据平台、物联网、边缘计算领域有丰富的实践经验,深耕大数据平台存算分离、实时数仓、融合计算等技术,致力于大幅降低数据开发及应用门槛,让大数据技术成为一项人人可用、可快速应用的技术。

活动推荐


ArchSummit全球架构师峰会(北京站)设置了企业数字化转型落地探索专题。来自来自字节跳动、快手、美团、网易的嘉宾,将分享 LakeHouse、流批一体等内容,欢迎关注。

2022-07-25 18:177221

评论

发布
暂无评论
发现更多内容

天翼云十年一诺,以普惠算力拥抱万里山河

脑极体

整理了100个必备的Python函数,建议收藏

伤心的辣条

Python 程序人生 软件测试 软件自动化测试 测试 单元测试

计算机二级备考

工程师日月

5月月更

浅谈前端和后端的区别

工程师日月

5月月更

旧活新整-数据埋点

analysis-lion

埋点定义 埋点治理 埋点框架 埋点重构

如何挑选文档协作工具

小炮

文档协作

使用APICloud AVM框架封装通讯录组件

YonBuilder低代码开发平台

APP开发 APICloud avm.js 通讯录

【愚公系列】2022年05月 二十三种设计模式(九)-装饰者模式(Decorator Pattern)

愚公搬代码

5月月更

企评家|上海贵酒股份有限公司成长性报告简述

企评家

在线TSV转SQL工具

入门小站

工具

快速删除 node_modules

HoneyMoose

Hadoop Java api操作hdfs(二)

Emperor_LawD

hadoop 5月月更

linux之history命令

入门小站

Linux

在线提取Sitemap中的URL工具

入门小站

工具

测试人面试 常被问到的计算机网络题,高薪回答模板来了!

伤心的辣条

Python 程序人生 测试 自动化测试 测试 单元测试

八卦信息怎样传到吃瓜群众?这是一条正儿八经的技术科普

融云 RongCloud

Hoo研究院|区块链简报:以太坊创始人V神呼吁马斯克支持“非侵入式”抗新冠技术

区块链前沿News

区块链 Hoo

时不我待,TSDB崛起正当时

CnosDB

IoT 时序数据库 开源社区 CnosDB infra

针对自动取款机优化需求的用例设计,应该挺全面了吧

伤心的辣条

Python 程序人生 软件测试 软件自动化测试 软件测试工程师

《法医奇遇记系列》——爱情是WebSocket的坟墓

法医

前端 websocket

企评家|上海申通地铁股份有限公司成长性评价报告摘要

企评家

ScaleFlux加入阿里云PolarDB开源数据库社区

阿里云数据库开源

数据库 阿里巴巴 阿里云 国产数据库 PolarDB-X

看了它!你也能轻松部署vue3组件库

Jianmu

前端 持续集成 Vue 3 组件库 建木CI

Java 项目编译的时候提示 javax.xml.bind.annotation does not exist 错误

HoneyMoose

什么是数据资产?

奔向架构师

数据资产 5月月更

企评家,几大功能协助企业并购融资

企评家

中原银行流量削峰平台

中原银行

高并发 流量 中原银行 削峰

Zadig + Gitee:完美实现微服务架构持续交付

Zadig

DevOps 云原生 CI/CD 软件交付

深入了解 Flutter 的状态管理机制(上)

岛上码农

flutter ios开发 安卓开发 跨平台应用 5月月更

九、高可用之弹性伸缩

穿过生命散发芬芳

5月月更 高可用设计

HTML的iframe使用

恒山其若陋兮

5月月更

顺丰数据中台是怎样炼成的?专访顺丰科技大数据总监蔡适择_大数据_Lucien_InfoQ精选文章