【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

顺丰数据中台是怎样炼成的?专访顺丰科技大数据总监蔡适择

  • 2022-07-25
  • 本文字数:2652 字

    阅读完需:约 9 分钟

顺丰数据中台是怎样炼成的?专访顺丰科技大数据总监蔡适择

顺丰高速发展背后隐藏巨大阻力,各领域的数据问题成为顺丰精细化经营的最大困境,主要体现在核心业务线 O 线、M 线、F 线、H 线跨领域数据共享困难、数据服务时效性不足、数据质量问题、分析口径不统一和缺乏对数据的深度分析和挖掘。

 

而为了解决这样的问题,顺丰内部推动了数据中台项目,旨在打通内部数据的使用效率。数据中台作为集团最核心技术系统之一,如何构建其架构体系,如何在实际业务场景进行落地?本次采访了顺丰科技大数据总监蔡适择老师,来讲讲相关实战经验。

 

2022 年 8 月 18-19 日北京ArchSummit全球架构师峰会上,也设置了大数据治理专题,感兴趣的可以查看会议日程,来自字节跳动、快手、美团、网易的嘉宾,将分享 LakeHouse、流批一体等内容,欢迎关注。

 

InfoQ:蔡老师,您目前负责顺丰大数据平台底盘建设及产品化工作,完成顺丰大数据平台从 0 至 1 的整个建设过程。数据平台建设之前,顺丰内部的数据是一种什么样的状况?有哪些阻力?

 

蔡适择:在建设统一平台之前,数据是分散到各个独立的组织中,且各组织的数据想要共享比较困难,所以以前也有大数据,但它是一个个的数据孤岛,对业务的助力也仅仅是做一些报表,数据的需求则要由指定的人在指定的机器上编写指定的脚本来满足,交付效率低。

 

建设统一的平台,最大的挑战在于如何在满足信息安全的同时,对全域数据进行拉通与融合,并以开放自助的方式来大幅提升交付效率,而顺丰的数据又是相对来说比较敏感的,所以信息安全的思维惯性反而在当时成为了最大的阻力。

 

InfoQ:顺丰数据中台建设经过了哪几个阶段?建设之初,做了哪些架构层面的规划?

 

蔡适择:大体来说,可以分为三个阶段吧,第一个阶段算是开荒期,重点是做统一平台、统一工具、统一数据湖,在数据安全、可扩展性、数据共享上做了较为细致的规划,基本奠定了整体的平台服务基础。

 

第二阶段算是整合期,基于顺丰多元化战略的契机,在多租户模式下数据融合、数据协同开发、数据资产线上化上给予重点突破,让数据开发效率有大幅的提升,反映到业务中,就是数字指导经营基本深入到了业务各条线。

 

第三阶段一直持续至今天,我们称之为治理期,经过多年的数据野蛮增长,平台沉淀了不少数据,但数据的质量、数据的复用性、数据口径的统一却常常未达预期,因此需要对其进行深度的治理,在此期间,重点推进数据标准与质量、数据开发规范、平台数据运营工作,并在底盘架构上进行云原生、多机房、实时化改造,让全集团的数据人员深度参与,让顺丰的数据中台在数据质量、数据共享、数据应用效率上有质的提升。

 

InfoQ:数据中台建设之前,一直存在的“跨领域数据共享困难、数据服务时效性不足、数据质量问题、分析口径不统一和缺乏对数据的深度分析和挖掘”这些问题,在中台建设之后,已经完全解决了嘛?在业务上的效果如何?

 

蔡适择:这些问题完全解决是不太可能的,但对比以前,算是有质的飞跃。

 

  • 比如跨领域数据共享,我们在保障数据安全合规的情况下,通过数据标准、研发标准,以及底盘逻辑化改造,基本解决掉曾经或潜在的共享障碍;

  • 在数据时效性上,我们通过自建的数据开发平台、实时数据湖能力、湖仓一体的能力,让数据时效提升变得轻松且低成本;

  • 在数据质量上,经过多年的数据标准沉淀及数据质量平台的建设,让数据质量问题得以及时发现、及时处理,有效地提升数据质量,并基于数据指标平台及建模工具,在数据标准、数出一孔方面得以大幅保障,基本改善了口径不统一的情况。

 

从业务效果上来总结,让用户搜不到、找到不可用、查到不敢信等数据问题基本得到解决。

 

InfoQ:数据中台在实际业务场景进行落地的时候,遇到了哪些技术上,或者内部推动上的困难?例如跨领域共享、指标时效、数据治理、团队协同及跨云计算等问题。又是如何解决的?

 

蔡适择:能用技术解决的问题都不能算是大的问题,最大的困难还是在于内部推动上,数据共享、多人协同开发、数据标准化都是需要跨组织拉通,并推动对现有的内容进行改造的,对现有业务的影响如何避免、改造后的短期收益不明显都是明显的障碍,因此需要从上往下推行,需要在高层上就取得一致的共识与支持才能进行下去。所以顺丰的数据中台能够顺利推进,最大的因素还是因为管理层有坚定的决心,且取得了一致的共识。

 

当然,在技术上还是有一定的挑战的,比如数据实时化,让研发写专业的代码肯定也是可以实现的,但这成本高、灵活性低。因此我们需要在实时数据湖、实时数据开发平台上做深度的低门槛化,才能让数据实时化得以大幅推进;再比如跨云计算,因为随着业务用数的人越来越多、用户自助分析的需求越来越大,且物流快递行业是具有明显的高峰低谷时期,算力需求的不稳定性是比较突出的,因此我们通过对大数据底盘架构做深度改造,在存算分离、精细化缓存、跨机房精细调度等方面进行深度研发,并与公有云打通,借助公有云的弹性能力,让计算按需弹性到公有云,在平衡成本的情况下,有效地保障了不稳定的算力需求。

 

InfoQ:在您看来,顺丰数据治理体系的关键理念是什么?又是如何践行的?

 

蔡适择:一套数据治理体系、一个数据中台、N 个应用,要践行这样的理念,首先需要管理层有深刻的共识,让事情能推下去;其次,平台及工具要足够地简单与透明,让用户愿意配合;最后,要有配套的数据运营,即需要有一条鞭子,确保标准规范得以落地,并让数据的价值得以数字化显现。

 

InfoQ:数据中台建设,及应用落地的经验,对快递行业发展有什么借鉴经验可以传播的?

 

蔡适择:要有数据标准、要关注数据质量。快递行业是一个“人多、车多、货多、场多、环节多”的业务场景,如果全靠人管,没有全局的数据支撑,效率必将大打折扣,一个相对完备的数据中台,不仅仅能够让管理者及时发现业务问题、调整战略方向,还能让经营精细化、物流智能化得以推进,但这么多的环节对接、这么多的人工操作,数据质量问题是最容易出现且又最容易被忽视的,而一个有众多数据质量问题的数据中台,是没有可能成功的。

讲师简介

蔡适择,顺丰科技有限公司大数据总监。负责顺丰大数据平台底盘建设及产品化工作,完成顺丰大数据平台从 0 至 1 的整个建设过程,之前负责京东实时计算平台从 0 至 1 的整体建设。在大数据平台、物联网、边缘计算领域有丰富的实践经验,深耕大数据平台存算分离、实时数仓、融合计算等技术,致力于大幅降低数据开发及应用门槛,让大数据技术成为一项人人可用、可快速应用的技术。

活动推荐


ArchSummit全球架构师峰会(北京站)设置了企业数字化转型落地探索专题。来自来自字节跳动、快手、美团、网易的嘉宾,将分享 LakeHouse、流批一体等内容,欢迎关注。

2022-07-25 18:177341

评论

发布
暂无评论
发现更多内容

数据丢失不用怕,火山引擎DataLeap 提供排查解决方案

字节跳动数据平台

大数据 数据治理 数据研发 企业号 3 月 PK 榜

喜报:旺链科技成为龙芯生态重要合作伙伴

旺链科技

区块链 生态合作

YonTalk 大咖论道:YonBuilder 低代码开发平台能力解析

YonBuilder低代码开发平台

2023年广州堡垒机采购选哪家好?咨询电话多少?

行云管家

等保 堡垒机 等级保护 广州

ChatGPT也BUG?带你走进ChatGPT背后的网络基础设施

郑州埃文科技

人工智能 ChatGPT

你的收藏不能少的Spring笔记,阿里十年架构师手写Spring笔记

小小怪下士

Java spring 程序员

一次偶然机会发现的MySQL“负优化”

做梦都在改BUG

Java MySQL 数据库 性能优化

TiDB 数据库大版本升级-基于TiCDC异机升级

TiDB 社区干货传送门

迁移 版本升级

基于TiDB Binlog架构的主备集群部署及数据同步操作手册

TiDB 社区干货传送门

管理与运维

和细胞一样优雅的 TiDB Region 设计

TiDB 社区干货传送门

TiDB 底层架构

Redis缓存穿透/击穿/雪崩以及数据一致性的解决方案

做梦都在改BUG

Java 缓存 穿透 击穿 雪崩

深耕智能边缘研究和应用,英特尔中国研究院、南京英麒联合探索算力前沿

科技热闻

网心科技多项边缘计算成果亮相第十届中国网络视听大会

网心科技

如何通过Java代码在PowerPoint 幻灯片中插入公式

在下毛毛雨

PowerPoint 公式 java‘

阿里云加入“一云多芯”应用创新计划,首批通过金融专有云能力评估

云布道师

混合云

Java:如何在PowerPoint幻灯片中创建散点图

在下毛毛雨

图表 PowerPoint java‘

理性探讨AIGC未来的发展方向

加入高科技仿生人

人工智能 低代码 AIGC

Mac OS如何显示隐藏文件和文件扩展名

互联网搬砖工作者

亚信科技AntDB数据库荣获互联网周刊金i奖“2022年度产品”

亚信AntDB数据库

数据库 AntDB 国产数据库 AntDB数据库 企业号 4 月 PK 榜

TiDB × 阿里云试用体验(随迟但到)

TiDB 社区干货传送门

版本测评

熹微~~~基于Vue开发的昏暗风格的响应式网页!

京茶吉鹿

前端 项目 vue cli

〖产品思维训练白宝书 - 认知篇①〗- 产品思维能够为我们带来多大的价值?

哈哥撩编程

产品经理 产品思维

三种Web通信技术之间的差异

郑州埃文科技

集群3副本丢失2副本-unsafe-recover

TiDB 社区干货传送门

实践案例 管理与运维 6.x 实践

bytebase让你爱上tidb的开源审核神器。

TiDB 社区干货传送门

6.x 实践

审计录像是什么意思?堡垒机有审计录像功能吗?

行云管家

堡垒机 审计 审计日志 审计录像

GitHub开源2小时Star破10万,阿里Java高并发集合手册终是被公开

做梦都在改BUG

Java 高并发 集合框架

基于TiDB+Flink实现的滑动窗口实时累计指标算法

TiDB 社区干货传送门

应用适配 HTAP 场景实践 大数据场景实践 实时数仓场景实践 OLTP 场景实践

GitHub开源几分钟被下架!神作《Spring Boot实战项目》竟昙花一现

做梦都在改BUG

Java 微服务 Spring Boot 框架

软件测试/测试开发丨Web自动化总卡在文件上传和弹框处理上?

测试人

软件测试 自动化测试 测试开发 selenium

软件测试/测试开发丨4步,用 Docker搭建测试用例平台 TestLink

测试人

Docker 软件测试 自动化测试 测试开发 testlink

顺丰数据中台是怎样炼成的?专访顺丰科技大数据总监蔡适择_大数据_Lucien_InfoQ精选文章