上海架构师集结!4月25-26日,全球架构师峰会首次落地上海,吴翰清、汪源、叶绍志等大咖确认出席 了解详情
写点什么

京东 EB 级全域大数据平台的演进与治理历程

2020 年 12 月 05 日

京东EB级全域大数据平台的演进与治理历程

本文由 dbaplus 社群授权转载。


大家好,我是来自京东的包勇军,今天主要跟大家分享一下京东全域大数据平台的建设历程。在分享前,我想先重申一下数据的价值。


一、数据的价值



The Economist(经济学人期刊),2017 年,5 月版


众所周知,数据正如石油一样深刻改变着我们的信息化社会,为整个行业,更为我们的社会创造了越来越大的价值。



左图为公开资料:Forrester 发布《数据中台 2019 年行业分析报告发布》;右图为公开资料整理


上图有两个直观的展示:


  • 左边是引自 Forrester 报告里的一句很直观的陈述,“通过数据洞察驱动业务发展,我们的领先者,比落后者在竞争优势上能够维持 2.4 倍加速度”;

  • 右边很直观的展示了全球市值前十大公司近 30 年来的一个变化。可以看到最近十年来,在全球市值前十公司中,科技公司已经占了绝大多数。


从数据角度来看,大部分的这类科技公司都是通过生产、加工、消费和重构数据的循环来提升商业价值,这是他们的一个共同本质。


国内大数据行业趋势



来源于:公开资料整理


从宏观政策角度来看,近些年来我国的大数据相关政策也相继出台。政府连续六年把大数据写入政府工作报告,市场预测在 2023 年大数据直接相关产业将达到 1.57 万亿的规模,而间接关联行业也已经深入到各行各业的日常生活消费当中。可以看出,我们的所有企业,包括传统企业都在做深刻数字化转型。


二、行业大数据平台现状


1、行业大数据平台发展阶段



来源于:公开资料整理


从一个技术人的角度看,我们认为大数据平台在应对整个行业诉求方面当前还处在一个探索期,还在起步的阶段。


数据中台的概念逐步受到市场关注,但是数据平台在企业的成功应用案例仍然局限在头部互联网企业,以及相关的创新型企业,但我们希望达到的目标是将数据中台打造成行业内所有企业的一个标配的基础能力。


2、行业大数据平台架构


距离数据平台建立一个统一的行业标准、统一的监管规范仍然有相当长的路需要去走。这是一个大数据平台架构简图:



来源于:公开资料整理


从这个架构图可以看到:


  • 整个大数据生态是非常复杂的,里面涉及非常多元、多样的产品技术;

  • 数据平台技术处于高速发展阶段,以及整个行业在每年都会涌现大量的新鲜产品和技术。


这两个特点为诸多企业建立标准统一的大数据平台和进行数字化转型带来了很高的技术门槛,同时技术路线的不清晰也隐藏各种决策的风险。


3、行业大数据平台建设的挑战


我们认为建设行业大数据平台面临着诸多的问题:



我们也从京东的大数据实践中提炼了一些核心点,希望对大家有所帮助:


  • 随着数据规模快速增加,想要通过简单堆砌物理资源的方式,会让投资的边际效益越来越低;

  • 同时随着市场竞争格局加剧,传统规则化的数据分析方式已经无法满足更精准的业务数据挖掘诉求;

  • 在后疫情时代,新基建激发了大量对数据的诉求,然而互联网企业所积累的数字化转型经验想要在其他相关行业落地推广,还需要继续探索。


三、京东全域大数据平台的建设历程


结合前面提出的一些核心问题,下面我来分享一下京东在大数据平台建设中的一些历程和心得。


1、京东大数据平台的整体情况



从总体规模上来看,平台的集群服务器已经在数万规模,日计算任务数在数百万级别,总存储达到 EB 级别。



从业务赋能角度上看,平台面向京东全部业务场景,支撑了包括京东主站电商业务、金融业务、京东物流、京东健康等诸多复杂业务场景。


2、京东大数据平台建设历程


为达到以上这两个效果,实际上我们整个平台经历了很长的建设和发展历程。这个历程包括了五个阶段:



1)规模化阶段



规模化解决了京东业务急剧增长带来的挑战。随着业务增长,数据急剧膨胀,无论是堆机器还是人力,都无法满足高速增长的业务需求,也无法有效保障如此大规模平台的稳定性。


想要解决这个问题还需要回到问题本身。京东的实践表明,随着平台体量增加,业界开源社区流行的一些开箱既用技术,需要进行深度定制和创新性改造,才能有效支撑海量数据规模的需求。


所以我们在这方面做了一些系统性的工作。


① 高效的计算存储引擎



  • 首先我们完成了技术栈的计算存储分离升级,依托数据中心网络技术的提升,减弱对计算本地性的依赖,打散存储热点,提高计算稳定性;

  • 同时定制存储与计算优化机型,独立进行容量规划,大幅降低 IT 资源成本。在存储上实现了稳定的万台规模 HDFS 集群,并在其上全面落地了纠删码技术,实现高效高压缩比的大数据存储;

  • 再在计算上进行了跨层的优化,从调度层、引擎层和应用层分别进行了深度的改进;

  • 最后通过全生命周期管理保障平台的存储计算能力持续处于健康状态。


② 自动化运营管理系统


除了底层引擎核心能力以外,我们还需要建设上层的自动化运维和管理系统。这不仅涵盖了对服务器资产的运维运营、资源治理和规划,还包括了对整个数据资产的盘点和收益分析。



我们也希望通过自动化运维,通过系统化管理解决平台规模化、平台可靠性和平台可用性问题,高效支持业务快速布局和起量。


2)体系化阶段


① 业务快速并行发展带来的挑战


随着主营业务的逐渐成熟,新兴业务也快速发展并对数据平台带来新的挑战:


  • 新业态野蛮生长,让管理成本急剧增加,如何破局是一个无法绕开的难题;

  • 数据烟囱:重复建设,缺乏链接,无法形成合力;

  • 数据腐化:随着时间流逝,数据价值流失;

  • 缺乏治理:高价值数据甄别难;

  • 来源繁杂:结构化、非结构化数据、多种异构数据源;

  • 业务复杂:需求扩张速度与应接能力矛盾。


② 数据中台的核心目标



我们从金融业务,物流业务,电商业务,保险业务、健康业务等不同业务的特点和需求出发,逐步构建成标准化、可管理、可维护、可理解、可复制、一站式、体系化的数据中台,解决了前面提到的业务复杂、数据异构、烟囱化开发、建设成本高等问题。


通过数据层面全链路的规范、盘点、治理,以及平台工具层面业务标准化支撑,打造出京东全集团体系化数据中台。


总而言之,体系化是数据中台的核心目标之一,覆盖了数据从生产、计算、存储、消费的全生命周期,为数据价值的高效发挥提供了坚实基础。


基于体系化建设的经验,我们也沉淀和打磨各项数据能力,提炼出一系列的产品化解决方案。这种体系化建设的方法论和实践经验,让我们在业务快速布局、快速发展的阶段中,能够使数据非常高效的输入到决策引擎,形成快速的商业决策。


3)实时化阶段


随着数据规模扩张,业务数据决策体系化标准和理念越来越为大家所接受,整个业务发展也越来越快,对应的数据应用诉求也越来越多。这也对整个数据平台的实时化能力提出了更高的要求。


① 速度是永恒的诉求,快速响应市场变化



实时数据处理中,高吞吐低延迟指标是一个永恒的诉求。


如何基于海量数据支撑业务的秒级决策,在竞争日益激烈的市场环境下,快速响应市场的变化,赢得竞争优势。这对实时化能力提出很高的挑战,促使我们对系统进行实时化改造。


由于电商行业的特点,我们还面临着 618,双 11 大促洪峰的压力。那么如何在大促场景下保障系统的高可用和高性能,同时保证日常情况下实现资源的高效利用,是我们面临的一项独特挑战。


加之整个公司业态众多,各业务线人员技术背景参差不齐,而我们希望新兴技术能够在各个业务团队快速推广,从而使其可以将更多精力投入业务探索、创新上面。这对实时数据开发的易用性也提出了挑战。


② Easy Realtime 实时计算平台


针对实时化的这些挑战,我们制定了一个端到端的一站式解决方案:打造 Easy Realtime 实时计算平台。



首先,这是一个高可用系统。一方面,我们在任务调度、数据分发、状态恢复等方面进行了深度定制优化,大幅提升了系统鲁棒性,也经历了多次大促洪峰的考验;另一方面我们落地了基于容器的云原生弹性资源调度,打造了全自研的自愈框架,实现自动化自适应的故障恢复能力,能有效的保障系统和平台的稳定性。


其次,Easy Realtime 平台是企业级应用平台,集成了一站式云代码开发,并直接对接云原生实时计算平台。


平台的建设目标是让没有任何代码开发能力的一线业务同事,例如京东的采销同事,甚至是 ISV 代理,经过短时间培训,能够具备 SQL 能力、快速上手,自主实现业务决策开发。


4)智能化阶段


该阶段是对数据的深度理解,这是业务再增长的一个动力源。



我们希望通过智能化改造,打造以高效精准业务决策为目标的数据化智能服务。同时希望通过智能化改造,把我们以统计分析为主的大数据平台,升级到以数据智能化、数据精准化、数据深度化理解的一个数据算法综合型平台。


通过这样一个平台,希望能够对数据进行一个全新的理解,深层次的加工,从而挖掘更多、更全面、更精准的信息,帮助我们业务方能够在市场竞争环境下获得更大的技术优势。


① 智能化转型面临的挑战


京东大数据平台智能化转型面临以下三个特殊挑战:


  • 大数据下的大规模机器学习算力挑战: 如何让整个大数据的算力与算法能高效结合?具体来说,在大数据背景下实现工业级的超大规模机器学习平台算力本身就是一个大的挑战;

  • 数据安全背景下的跨业务实体数据融合分析: 随着数据安全的政策、法规和理念越来越被重视,而且在数据安全背景下,如何对跨业务实体的数据做融合算法分析,以此帮助我们的业务团队获得更多的数据和竞争优势,也是一个新兴的挑战。为此我们研发了联邦学习数据交换平台,为京东生态合作提供数据交换安全屋(避难所);

  • 数据多模态的大量涌现,组织越来越复杂,应用越来越灵活: 基于此我们打造出伽利略图计算框架,能够支持复杂关系的数据分析,轻松支持数十亿级别图数据的复杂关联计算,为整个多模态数据提供一个高效存储和计算平台。


② 九数(9N)商业分析和业务智能化平台



九数商业分析和业务智能化分析平台的架构图


平台里有几个核心的算法引擎,包括 9N-FL 联邦学习引擎。支撑这些引擎的基础是面向整个算法领域的云化资源管理系统,它与面向数据的管理系统无缝集成,形成一站式的数据算法解决方案,最终赋能京东的零售业务、健康业务、金融业务等, 推动业务的高速发展。


以京东广告业务为典型案例,


  • 九数平台研发推动了整个广告从规则化到数字智能化转型,推进了整个京东无人投放广告的研发工作;

  • 目前无人投放广告已经成为京东广告的最核心收入来源,而智能化平台转型是其中最大的一个系统助力因素;

  • 我们也在积极的推动开源, 以回馈社区。现在九数联邦学习平台已经开源,伽利略图计算引擎计划在年底开源,平台整体开源也在筹备当中。


5)商业化阶段



京东全域大数据平台架构 Easy JData


基于以上四个阶段的发展,我们最终打造出依托于实际业务支撑经验的,可同时支持多领域应用(零售、物流、金融、健康等)的全域大数据平台。它包含的系统、工具、产品和方法论,与业内主流数据中台也有一定的共通之处。


在建设过程中遇到的挑战,也在前面给大家一一介绍过。在当下政企数字化转型如火如荼的关口,京东的这些经验最终将沉淀出相应的技术产品或工具,并能够走出去,助力行业发展。


四、未来发展方向



让我们来一起畅想下全域数据平台的发展方向,希望伴随业务的发展,我们能够持续修炼技术内功,加强技术升级,实现云原生的智能数据平台。同时能深化和落实 Deep AI 的概念,加速业务深度赋能。最后希望能将京东经验回馈整个行业,以 PaaS 化、SaaS 化为抓手,与合作伙伴协作共赢,建设健康可持续的大数据商业生态。


作者介绍


包勇军,目前在京东任职数据基础平台部、广告质量部、推荐研发部负责人,同时担任京东集团技术委员会委员、京东零售数据算法委员会会长。负责大数据平台基础架构的建设和产品开发、AI 算法平台建设、AI 算法在广告系统中的研发和应用,推荐策略、数据和推荐系统的研发工作。数据系统和算法等领域专家,精通数据算法和平台技术在电商业务数字化中的落地应用,对大数据底层架构设计及平台建设有丰富的实战经验。


原文链接


京东EB级全域大数据平台的演进与治理历程


2020 年 12 月 05 日 10:051770

评论

发布
暂无评论
  • 大数据与 AI,如何高效地测试?

    在越来越短的交付时间里,如何保障产品的质量,怎样高效地测试呢?我们研发模式在不断地变化,测试的定位又有哪些改变,而未来的测试又会发展成什么样的形态呢?

    2019 年 2 月 26 日

  • 星环科技研发总监刘汪根:大数据 3.0 时代的星环之路

    8月14日,2018星环科技大数据3.0研讨会北京站圆满举行,本站研讨会,来自各行业的参会嘉宾逾300人,星环科技联合北京大学、卓朗科技、联储证券、数起科技等众多合作伙伴、客户展开行业落地案例分享,旨在让观众对星环的产品有更深入的了解。

  • 苏宁 OLAP 引擎发展之路

    演讲嘉宾现担任苏宁 OLAP 平台负责人,拥有 10 年以上相关领域经验,对多项大数据技术有着广泛使用经验和深刻的理解。目前负责苏宁 OLAP 引擎,Druid,ES 等大数据组件,主导并推进苏宁统一的基于 SQL 的 OLAP 引擎,Druid 服务化平台,ES 服务化平台的建设,极大的提升各项指标数据的开发时间,减少各项人力和硬件成本。内容介绍对于海量大数据进行即时的多维分析,没有任何银弹。为解决苏宁复杂业务场景下的通用指标分析查询场景,我们结合各项大数据技术建立苏宁 OLAP 引擎。支持单模型百亿条 TB 级别数据的实时汇总分析和明细查询,在建设过程中,也遇到了各种各样的挑战。如何将复杂业务场景抽象化,提供平台级能力支持,如何通过统一的 SQL 引擎来实现各种类型数据的统一查询;对于通用服务计算框架无法解决的问题,如何通过定制化实现来解决;对于通用查询引擎无法满足响应时间的场景,如何通过预计算方式来实现;如何通过 Cost 模型来对服务进行分级和隔离等等。本次深度揭秘苏宁建设 OLAP 引擎过程中如何运用各项技术解决问题的方案,以及过程中遇到的坑和优化方法。

    2019 年 7 月 24 日

  • 国双吴充:应对独特的中国营销环境,CDP 如何落地?

    日前,国双营销云技术总经理吴充就营销领域备受关注的CDP和DMP之间的关系、CDP的核心价值及在中国如何正确落地CDP等话题进行了探讨。

  • 国双在乌镇解读数据中台

    悠悠千年古镇,聚焦世界互联。在白墙乌瓦之间,万众瞩目的第六届世界互联网大会正在如火如荼召开。作为中国领先的企业级大数据和人工智能解决方案提供商,国双再次受邀出席盛会,并由国双工业互联网事业部副总经理董小冬为与会嘉宾带来了“数据中台是企业数字化转型的关键”精彩演讲。

  • 工业互联网平台:将为“补链”“优链”“强链”提供有力保障

    2020年,工业互联网创新发展取得显著成效,平台体系建设不断走深走实,“平台+技术”“平台+行业”“平台+区域”“平台+双链”“平台+生态”体系化推进,平台已经成为加速制造业旧动能改造和新动能培育的重要载体,特别是在疫情期间为企业抗疫复产、降本增效

    2021 年 2 月 1 日

  • 第 5 讲 | CTO 的三重境界

    CTO 的格局是由组织成长和所处阶段决定的,作为 CTO 的格局可以超前,但不能滞后。

    2018 年 4 月 23 日

  • 阿里 1688 实时数据工程实践

    本文介绍面向阿里1688业务的实时数据工程实践。

  • 解放双手,发掘更大的价值:智能化运维

    目前业界真正的智能化运维的落地实践其实并不多,大多还是停留在自动化甚至人工化阶段,然而智能化运维是大势所趋,对于大公司来说,更是尤为重要。阿里大数据SRE团队历时2年时间完成了Tesla这一智能化运维体系的设计、开发和落地。基于此,我们采访了阿里Tesla体系负责人熊胜(池枫),希望能带给大家对智能化运维的一些新的思考。

  • 京东集团的风控实践

    什么是风控?互联网企业的风控与传统风控有何区别?京东是怎样构建自己的风控体系?

  • 京东 11.11:大数据构建京东智慧物流系统

    很多人对京东物流的高效印象深刻,用户体验受到广大用户的认可,但是,在这些体验背后隐藏着高昂的运营成本。青龙系统作为支撑京东物流的核心系统,在这个过程中,也逐渐为外界瞩目,日处理数百万订单,大促销期间上千万单,数十万操作人员在这个物流网络中服务,智慧化物流系统成为迫切需求。青龙系统从2012年研发版本1.0,到目前的6.0的演进过程中,我们也逐步认识到,以大数据处理为核心是构建智慧物流的关键。

  • 合理使用元数据工具,解决大数据治理落地难点

    元数据并不止存在于数据领域,近年来,元数据管理的范围在不断扩大,从简单的库表,到整个数据平台,再到服务管理,不断突破传统元数据管理的范畴。InfoQ采访了普元软件产品部副总、大数据产品线总经理王轩,了解如下问题:“元数据”和“大数据”之间的异同之处在哪里?大数据环境下的元数据管理有什么特点?元数据元数据驱动的微服务架构有何特点?企业大数据治理难点在哪里?

  • 大数据杂谈微课堂|大数据治理技术核心,可扩展的元数据架构设计

    大数据杂谈微信群分享内容。 整个分享分为三个部分: 第一部分,说说我和我的团队眼中的元数据。 第二部分简单介绍如何实现元数据管理的架构。 第三部分,我将通过举例的方式,说明元数据的应用价值。

  • 京东开放性 AI 生态的重要一环:PinoAI 人工智能平台

    针对目前很多企业以及个人在营销层面存在的诸如广告投放流程长、效率低、海量投放不精准等固有问题,以及企业开发新的相关技术能力弱,周期长等短板,京东技术部门经过攻坚,开发出一套可以解决上述问题以及其它等困扰企业的人工智能服务平台--PinoAI。 10月12日,InfoQ记者来到京东PinoAI的产品发布会现场,与研发团队零距离沟通,为各位读者带来该平台最全面详细的解析。

  • 课程介绍

    2019 年 6 月 24 日

  • 明略科技总裁姜平:智能时代企业中台落地需要完成“四步走”

    数据中台是组织数字化转型的中枢支撑

  • 从反应式到预测式,全域大数据的技术演进解析

    目前,国内一批大数据企业都开始致力于此项技术的研究和探索——即围绕用户的使用过程来打造一对一的体验。从已掌握的、能体现用户在某个特定过程的数据入手,厘清这些数据将在接下来的哪些互动环节提供支持与帮助,从而据此制定具体的互动体验。因此,这一过程也将改变企业开展业务的方式——从反应式到主动式和预测式。

  • 中国技术力量:京东技术十年磨一剑

    11月16日,QCon全球软件开发大会将在美国旧金山隆重开幕,17日这天,由极客邦科技及InfoQ中国组织策划的中国技术开放日(ChinaTech Day)也将亮相大会,来自阿里巴巴、京东、腾讯、百度等国内一线互联网公司的技术专家,将作为中国技术力量的代表,向国外的参会者分享中国互联网的顶尖技术。京东商城技术副总裁兼首席科学家何刚博士作为国内著名的技术专家,将分享京东怎样通过云计算和大数据服务的方式,助力传统行业转型。京东从基础云、电商云和数据云三个方面,解决包括制造业、农业、金融、物流及农业等多个行业存在的一些问题。

  • 大咖对话 | 杨育斌:技术领导者要打造技术团队的最大化价值

    科技公司的人员成本又高,所以,如何充分运用团队能力,生产更大的效益,就是每个技术领导者需要思考的问题,

    2018 年 10 月 5 日

  • 关键抉择: 到底什么样的企业应该建数据中台?

    企业规模也是必须要考虑的一个因素,数据中台因为投入大,收益偏长线,所以更适合业务相对稳定的大公司,不适合初创型的小公司。

    2020 年 3 月 30 日

发现更多内容

再谈云原生:我的看法

lidaobing

云原生 k8s 中间件

锦囊篇|一文摸懂LeakCanary

ClericYi

每周学习总结 - 架构师培训 3 期

Damon

week3.课后作业

个人练习生niki

单例模式 组合模式

极客时间架构师训练营 - week3 - 作业 2

jjn0703

极客大学架构师训练营

ARTS-week-4

youngitachi

ARTS 打卡计划 arts

架构师训练营 -week3- 作业

晓-Michelle

极客大学架构师训练营

锦囊篇|一文摸懂OkHttp

ClericYi

极客时间 - 架构师培训 -3 期作业

Damon

springboot整合Quartz实现定时任务(api使用篇)

北漂码农有话说

架构师训练营 - 第三周命题作业

牛牛

极客大学架构师训练营 命题作业

锦囊篇|一文摸懂EventBus

ClericYi

锦囊篇|一文摸懂ButterKnife

ClericYi

设计模式的十八般武艺

ClericYi

区块链系列教程之:比特币中的网络和区块链

程序那些事

比特币 区块链 网络 p2p

Redis系列(二): 连集合底层实现原理都不知道,你敢说Redis用的很溜?

z小赵

Java redis 高并发 高并发系统设计

618 我们狂欢的是什么?

Neco.W

拼多多 电商 京东 活动专区

ARTS-03 -- ARTS-04

NIMO

ARTS 打卡计划 ARTS活动

关于多线程,你必须知道的那些玩意儿

ClericYi

week3.学习总结

个人练习生niki

游戏夜读 | 《FPS关卡设计》

game1night

第三周学习总结

iHai

极客大学架构师训练营

学习总结 - 第3周

饶军

我们是如何做go语言系统测试覆盖率收集的?

大卡尔

go 测试覆盖率 精准测试

Prometheus 2.19.0 新特性

耳东

Prometheus

还有比二分查找更快的算法,面向接口编程Protocol,John 易筋 ARTS 打卡 Week 05

John(易筋)

swift ARTS 打卡计划 二分查找 binary search protocol

重学 Java 设计模式:实战命令模式「模拟高档餐厅八大菜系,小二点单厨师烹饪场景」

小傅哥

设计模式 小傅哥 重构 代码优化 命令模式

第三周课后作业

iHai

极客大学架构师训练营

架构师训练营第三周学习总结

CATTY

关于JVM,你必须知道的那些玩意儿

ClericYi

锦囊篇|一文摸懂Handler

ClericYi

OCR技术的未来发展与演进

OCR技术的未来发展与演进

京东EB级全域大数据平台的演进与治理历程-InfoQ