在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

京东 EB 级全域大数据平台的演进与治理历程

  • 2020-12-05
  • 本文字数:4652 字

    阅读完需:约 15 分钟

京东EB级全域大数据平台的演进与治理历程

本文由 dbaplus 社群授权转载。


大家好,我是来自京东的包勇军,今天主要跟大家分享一下京东全域大数据平台的建设历程。在分享前,我想先重申一下数据的价值。


一、数据的价值



The Economist(经济学人期刊),2017 年,5 月版


众所周知,数据正如石油一样深刻改变着我们的信息化社会,为整个行业,更为我们的社会创造了越来越大的价值。



左图为公开资料:Forrester 发布《数据中台 2019 年行业分析报告发布》;右图为公开资料整理


上图有两个直观的展示:


  • 左边是引自 Forrester 报告里的一句很直观的陈述,“通过数据洞察驱动业务发展,我们的领先者,比落后者在竞争优势上能够维持 2.4 倍加速度”;

  • 右边很直观的展示了全球市值前十大公司近 30 年来的一个变化。可以看到最近十年来,在全球市值前十公司中,科技公司已经占了绝大多数。


从数据角度来看,大部分的这类科技公司都是通过生产、加工、消费和重构数据的循环来提升商业价值,这是他们的一个共同本质。


国内大数据行业趋势



来源于:公开资料整理


从宏观政策角度来看,近些年来我国的大数据相关政策也相继出台。政府连续六年把大数据写入政府工作报告,市场预测在 2023 年大数据直接相关产业将达到 1.57 万亿的规模,而间接关联行业也已经深入到各行各业的日常生活消费当中。可以看出,我们的所有企业,包括传统企业都在做深刻数字化转型。


二、行业大数据平台现状


1、行业大数据平台发展阶段



来源于:公开资料整理


从一个技术人的角度看,我们认为大数据平台在应对整个行业诉求方面当前还处在一个探索期,还在起步的阶段。


数据中台的概念逐步受到市场关注,但是数据平台在企业的成功应用案例仍然局限在头部互联网企业,以及相关的创新型企业,但我们希望达到的目标是将数据中台打造成行业内所有企业的一个标配的基础能力。


2、行业大数据平台架构


距离数据平台建立一个统一的行业标准、统一的监管规范仍然有相当长的路需要去走。这是一个大数据平台架构简图:



来源于:公开资料整理


从这个架构图可以看到:


  • 整个大数据生态是非常复杂的,里面涉及非常多元、多样的产品技术;

  • 数据平台技术处于高速发展阶段,以及整个行业在每年都会涌现大量的新鲜产品和技术。


这两个特点为诸多企业建立标准统一的大数据平台和进行数字化转型带来了很高的技术门槛,同时技术路线的不清晰也隐藏各种决策的风险。


3、行业大数据平台建设的挑战


我们认为建设行业大数据平台面临着诸多的问题:



我们也从京东的大数据实践中提炼了一些核心点,希望对大家有所帮助:


  • 随着数据规模快速增加,想要通过简单堆砌物理资源的方式,会让投资的边际效益越来越低;

  • 同时随着市场竞争格局加剧,传统规则化的数据分析方式已经无法满足更精准的业务数据挖掘诉求;

  • 在后疫情时代,新基建激发了大量对数据的诉求,然而互联网企业所积累的数字化转型经验想要在其他相关行业落地推广,还需要继续探索。


三、京东全域大数据平台的建设历程


结合前面提出的一些核心问题,下面我来分享一下京东在大数据平台建设中的一些历程和心得。


1、京东大数据平台的整体情况



从总体规模上来看,平台的集群服务器已经在数万规模,日计算任务数在数百万级别,总存储达到 EB 级别。



从业务赋能角度上看,平台面向京东全部业务场景,支撑了包括京东主站电商业务、金融业务、京东物流、京东健康等诸多复杂业务场景。


2、京东大数据平台建设历程


为达到以上这两个效果,实际上我们整个平台经历了很长的建设和发展历程。这个历程包括了五个阶段:



1)规模化阶段



规模化解决了京东业务急剧增长带来的挑战。随着业务增长,数据急剧膨胀,无论是堆机器还是人力,都无法满足高速增长的业务需求,也无法有效保障如此大规模平台的稳定性。


想要解决这个问题还需要回到问题本身。京东的实践表明,随着平台体量增加,业界开源社区流行的一些开箱既用技术,需要进行深度定制和创新性改造,才能有效支撑海量数据规模的需求。


所以我们在这方面做了一些系统性的工作。


① 高效的计算存储引擎



  • 首先我们完成了技术栈的计算存储分离升级,依托数据中心网络技术的提升,减弱对计算本地性的依赖,打散存储热点,提高计算稳定性;

  • 同时定制存储与计算优化机型,独立进行容量规划,大幅降低 IT 资源成本。在存储上实现了稳定的万台规模 HDFS 集群,并在其上全面落地了纠删码技术,实现高效高压缩比的大数据存储;

  • 再在计算上进行了跨层的优化,从调度层、引擎层和应用层分别进行了深度的改进;

  • 最后通过全生命周期管理保障平台的存储计算能力持续处于健康状态。


② 自动化运营管理系统


除了底层引擎核心能力以外,我们还需要建设上层的自动化运维和管理系统。这不仅涵盖了对服务器资产的运维运营、资源治理和规划,还包括了对整个数据资产的盘点和收益分析。



我们也希望通过自动化运维,通过系统化管理解决平台规模化、平台可靠性和平台可用性问题,高效支持业务快速布局和起量。


2)体系化阶段


① 业务快速并行发展带来的挑战


随着主营业务的逐渐成熟,新兴业务也快速发展并对数据平台带来新的挑战:


  • 新业态野蛮生长,让管理成本急剧增加,如何破局是一个无法绕开的难题;

  • 数据烟囱:重复建设,缺乏链接,无法形成合力;

  • 数据腐化:随着时间流逝,数据价值流失;

  • 缺乏治理:高价值数据甄别难;

  • 来源繁杂:结构化、非结构化数据、多种异构数据源;

  • 业务复杂:需求扩张速度与应接能力矛盾。


② 数据中台的核心目标



我们从金融业务,物流业务,电商业务,保险业务、健康业务等不同业务的特点和需求出发,逐步构建成标准化、可管理、可维护、可理解、可复制、一站式、体系化的数据中台,解决了前面提到的业务复杂、数据异构、烟囱化开发、建设成本高等问题。


通过数据层面全链路的规范、盘点、治理,以及平台工具层面业务标准化支撑,打造出京东全集团体系化数据中台。


总而言之,体系化是数据中台的核心目标之一,覆盖了数据从生产、计算、存储、消费的全生命周期,为数据价值的高效发挥提供了坚实基础。


基于体系化建设的经验,我们也沉淀和打磨各项数据能力,提炼出一系列的产品化解决方案。这种体系化建设的方法论和实践经验,让我们在业务快速布局、快速发展的阶段中,能够使数据非常高效的输入到决策引擎,形成快速的商业决策。


3)实时化阶段


随着数据规模扩张,业务数据决策体系化标准和理念越来越为大家所接受,整个业务发展也越来越快,对应的数据应用诉求也越来越多。这也对整个数据平台的实时化能力提出了更高的要求。


① 速度是永恒的诉求,快速响应市场变化



实时数据处理中,高吞吐低延迟指标是一个永恒的诉求。


如何基于海量数据支撑业务的秒级决策,在竞争日益激烈的市场环境下,快速响应市场的变化,赢得竞争优势。这对实时化能力提出很高的挑战,促使我们对系统进行实时化改造。


由于电商行业的特点,我们还面临着 618,双 11 大促洪峰的压力。那么如何在大促场景下保障系统的高可用和高性能,同时保证日常情况下实现资源的高效利用,是我们面临的一项独特挑战。


加之整个公司业态众多,各业务线人员技术背景参差不齐,而我们希望新兴技术能够在各个业务团队快速推广,从而使其可以将更多精力投入业务探索、创新上面。这对实时数据开发的易用性也提出了挑战。


② Easy Realtime 实时计算平台


针对实时化的这些挑战,我们制定了一个端到端的一站式解决方案:打造 Easy Realtime 实时计算平台。



首先,这是一个高可用系统。一方面,我们在任务调度、数据分发、状态恢复等方面进行了深度定制优化,大幅提升了系统鲁棒性,也经历了多次大促洪峰的考验;另一方面我们落地了基于容器的云原生弹性资源调度,打造了全自研的自愈框架,实现自动化自适应的故障恢复能力,能有效的保障系统和平台的稳定性。


其次,Easy Realtime 平台是企业级应用平台,集成了一站式云代码开发,并直接对接云原生实时计算平台。


平台的建设目标是让没有任何代码开发能力的一线业务同事,例如京东的采销同事,甚至是 ISV 代理,经过短时间培训,能够具备 SQL 能力、快速上手,自主实现业务决策开发。


4)智能化阶段


该阶段是对数据的深度理解,这是业务再增长的一个动力源。



我们希望通过智能化改造,打造以高效精准业务决策为目标的数据化智能服务。同时希望通过智能化改造,把我们以统计分析为主的大数据平台,升级到以数据智能化、数据精准化、数据深度化理解的一个数据算法综合型平台。


通过这样一个平台,希望能够对数据进行一个全新的理解,深层次的加工,从而挖掘更多、更全面、更精准的信息,帮助我们业务方能够在市场竞争环境下获得更大的技术优势。


① 智能化转型面临的挑战


京东大数据平台智能化转型面临以下三个特殊挑战:


  • 大数据下的大规模机器学习算力挑战: 如何让整个大数据的算力与算法能高效结合?具体来说,在大数据背景下实现工业级的超大规模机器学习平台算力本身就是一个大的挑战;

  • 数据安全背景下的跨业务实体数据融合分析: 随着数据安全的政策、法规和理念越来越被重视,而且在数据安全背景下,如何对跨业务实体的数据做融合算法分析,以此帮助我们的业务团队获得更多的数据和竞争优势,也是一个新兴的挑战。为此我们研发了联邦学习数据交换平台,为京东生态合作提供数据交换安全屋(避难所);

  • 数据多模态的大量涌现,组织越来越复杂,应用越来越灵活: 基于此我们打造出伽利略图计算框架,能够支持复杂关系的数据分析,轻松支持数十亿级别图数据的复杂关联计算,为整个多模态数据提供一个高效存储和计算平台。


② 九数(9N)商业分析和业务智能化平台



九数商业分析和业务智能化分析平台的架构图


平台里有几个核心的算法引擎,包括 9N-FL 联邦学习引擎。支撑这些引擎的基础是面向整个算法领域的云化资源管理系统,它与面向数据的管理系统无缝集成,形成一站式的数据算法解决方案,最终赋能京东的零售业务、健康业务、金融业务等, 推动业务的高速发展。


以京东广告业务为典型案例,


  • 九数平台研发推动了整个广告从规则化到数字智能化转型,推进了整个京东无人投放广告的研发工作;

  • 目前无人投放广告已经成为京东广告的最核心收入来源,而智能化平台转型是其中最大的一个系统助力因素;

  • 我们也在积极的推动开源, 以回馈社区。现在九数联邦学习平台已经开源,伽利略图计算引擎计划在年底开源,平台整体开源也在筹备当中。


5)商业化阶段



京东全域大数据平台架构 Easy JData


基于以上四个阶段的发展,我们最终打造出依托于实际业务支撑经验的,可同时支持多领域应用(零售、物流、金融、健康等)的全域大数据平台。它包含的系统、工具、产品和方法论,与业内主流数据中台也有一定的共通之处。


在建设过程中遇到的挑战,也在前面给大家一一介绍过。在当下政企数字化转型如火如荼的关口,京东的这些经验最终将沉淀出相应的技术产品或工具,并能够走出去,助力行业发展。


四、未来发展方向



让我们来一起畅想下全域数据平台的发展方向,希望伴随业务的发展,我们能够持续修炼技术内功,加强技术升级,实现云原生的智能数据平台。同时能深化和落实 Deep AI 的概念,加速业务深度赋能。最后希望能将京东经验回馈整个行业,以 PaaS 化、SaaS 化为抓手,与合作伙伴协作共赢,建设健康可持续的大数据商业生态。


作者介绍


包勇军,目前在京东任职数据基础平台部、广告质量部、推荐研发部负责人,同时担任京东集团技术委员会委员、京东零售数据算法委员会会长。负责大数据平台基础架构的建设和产品开发、AI 算法平台建设、AI 算法在广告系统中的研发和应用,推荐策略、数据和推荐系统的研发工作。数据系统和算法等领域专家,精通数据算法和平台技术在电商业务数字化中的落地应用,对大数据底层架构设计及平台建设有丰富的实战经验。


原文链接


京东EB级全域大数据平台的演进与治理历程


2020-12-05 10:054054

评论

发布
暂无评论
发现更多内容

11.多用组合和少继承

杨充

AI实践探索:辅助生成测试用例

小巫debug日记

测试用例 AI编程

这款AI助手竟能自动生成行程+前端代码?

VyrnSynx

CodeBuddy首席试玩官

用 CodyBuddy 帮我写自动化运维脚本

悟空聊架构

AI 悟空聊架构 CodeBuddy首席试玩官

PMC必须要懂的四个关键流程:生产、库存、交期全过程解析!

积木链小链

制造业 智能制造 中小企业 生产管理

阿里Java开发手册:编程规约、异常日志、单元测试、安全规 约、MySQL 数据库、工程结构、设计规约!

程序员高级码农

Java 程序员 java 技术提升

闺蜜机行业市场销量涨超42%,小度科技持续领跑行业

科技大数据

莫想到有一天得重新写个 etcd client

八苦-瞿昙

100台电脑局域网搭建攻略和设备配置指南

Ogcloud

局域网 企业组网 局域网组建 局域网搭建 企业网络搭建

越来越多企业为AI焦虑,联想的“超级智能体”来得正是时候

Alter

uniapp跨平台开发HarmonyOS NEXT应用初体验

幽蓝计划

鸿蒙跨平台开发

从0到上线,CodeBuddy 如何帮我快速构建旅游 App?

VyrnSynx

CodeBuddy首席试玩官

AI工具如何一键生成图表?5个流行的图表生成软件盘点!

职场工具箱

人工智能 图表 AI软件 AIGC 可视化工具

连锁药店如何安全访问总部运营系统?贝锐花生壳带来解决方案

贝锐

内网穿透 ERP

城市感知网络体系,构筑全域数字化新基石

脑极体

AI

什么是DDoS攻击?

天翼云开发者社区

安全 DDoS

室内LED全彩显示屏P3与P5

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家 户内led显示屏 规格说明

TikTok直播卡顿怎么解决?教你几个方法!

Ogcloud

SD-WAN tiktok直播 tiktok直播网络 tiktok网络 sd-wan专线

Ava:6 分钟语音聊天免费生成 MBTI 报告;字节发布图像理解与生成统一模型 Mogao丨日报

RTE开发者社区

使用LLaMA-Factory快速训练自己的专用大模型

我再BUG界嘎嘎乱杀

人工智能 AI 大模型

《算法导论(第4版)》阅读笔记:p14-p16

codists

算法

手动开发?给我一条提示词,CodeBuddy能做的你都做不到!

VyrnSynx

CodeBuddy首席试玩官

uniapp开发HarmonyOS NEXT应用之项目结构详细解读

幽蓝计划

常见应用层DDoS攻击

天翼云开发者社区

安全 DDoS

Apollo 可观测性最佳实践

观测云

Apollo

需求分析不好做?这门华为新课免费试听!

YG科技

什么是AI大模型?看deepseek用通俗易懂的语言解释

我再BUG界嘎嘎乱杀

人工智能 AI AI大模型 大模型 大语言模型

阿里云 SLS 多云日志接入最佳实践:链路、成本与高可用性优化

阿里巴巴云原生

阿里云 云原生

从AI助手到个性化数字分身:WeClone & Second Me打造本地化、私有化的个性化AI代理系统

汀丶人工智能

人工智能

现代框架对SEO的深度影响

溪抱鱼

国际化 SEO SEO工具

YashanDB 知识库|STATISTICS_LEVEL 设置为 ALL,性能掉到冰点?一条参数搞清楚根因

数据库砖家

数据库

京东EB级全域大数据平台的演进与治理历程_大数据_dbaplus社群_InfoQ精选文章