“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

3 年从 200 个数据用户发展到 6000 人,eBay 的大数据平台是如何做到的?

  • 2019-09-04
  • 本文字数:2881 字

    阅读完需:约 9 分钟

3年从200个数据用户发展到6000人,eBay的大数据平台是如何做到的?

在 7 月首届 Kylin Data Summit 上,大会特别邀请到了 eBay 全球研发副总裁、中国研发中心总经理田卫女士带来主旨演讲。eBay,这家在国内非常低调的老牌电商,以其深厚的技术基础在业内广受关注。熟悉 Kylin 的朋友也都知道,Kylin 项目最初也正是在 eBay 内部孵化并完成。今天小编就为大家回顾田卫女士当天的演讲,演讲主题是:增强分析在 eBay 的实践。


增强分析

Gartner 在今年 2 月的数据分析峰会上提出了十项数据发展的趋势,其中“增强分析 Augmented Analytics ”被列在第一条, 被 Gartner 誉为“数据和分析的未来”。

在数据可以被分析前,数据工程师需要对数据进行抽取、清洗、融合等准备工作,以提高数据分析的效率和准确性。增强分析 Augmented Analytics 能够帮助普通用户在没有数据科学专家或 IT 人员协助的情况下,访问有效数据,并对理论和假设情况展开测试与验证。增强分析作为数据分析的高级增强阶段,能为分析计划带来更多自动化动能以及创新洞察力。(点击此处,查看 Gartner 对于增强分析的解读)



田卫,eBay 全球研发副总裁、中国研发中心总经理

eBay 的大数据历程

eBay 始于 1994 年,由 eBay 公司发展历史我们也可以窥见整个电商行业的演变。


eBay 保存了世界上第一笔电商交易数据,一直发展到今天,整个世界电商的发展史都能在 eBay 找到它的痕迹。此外,eBay 横跨了全世界 180 多个国家,eBay 的数据不仅仅局限于某一个地区、市场,是包括北美、欧洲、亚太,整个一条完整的数据链。



通过上图,我们可以对 eBay 的大数据平台有一个快速的了解。eBay 现在处理的数据量涵盖 700PB 数据, 每天查询量在 120 万左右,这对 eBay 大数据系统有着很高的要求。


目前参与这个系统的数据工程师有 6 千余人。Gartner 一份报告显示,在高科技公司内,使用数据来驱动业务增长的人数占 32 %的人。反过来看 68%的人还没有真正应用数据,eBay 现在 1 万 4 千人,整个应用数据的人大概达到将近 40% 左右。这个数据也不是一蹴而就的,在 2015 年时,大概只有 200 个数据工程师和数据分析师在应用数据;随着增强型数据平台的推出,用户人数有了大幅增长。



eBay 的大数据生态,以 Data Fabric 为核心。支持以 API 为基础的数据服务。



eBay 的大数据演进之路


从上图可以看到,2005 年 eBay 的数据平台主要是基于 SQL,record report 系统。到 2010 年,转向了 Visual Based Discovery 阶段。2015 年开始, eBay 从 Teradata 向 Hadoop 大数据平台的迁移,Real-time Streaming 也在那一年出现,进入了一个更为高级的 Visual Based Discovery 阶段。2018 年,eBay 大面积开始应用 Hadoop、Spark;以及基于会话式的、NLU 等增强式数据分析解决方案。这其中还包括图谱的元数据管理系统,以及自动商业洞察等新技术, eBay 从 2018 年开始真正意义上向增强分析迈进了一步。


客户角度的演变

从客户角度看 eBay 大数据的演进,最早是专职的数据分析师,现在随着增强分析平台推出,可以延展到每一位 eBay 的员工。即使用户不了解数据在什么地方,不了解整个数据背后复杂业务逻辑,也能够非常简便地去做一些基本数据分析和查询。


从商业决策的流程来看,从过去静态的商业决策,提前通过一些 SQL、dashboard,延展到现在是一个动态的 data dashboard。以前公司领导们在做商业讨论和决策时,都是由分析师拿一些数据报表,现在直接通过 eBay 的增强数据平台,能够直接通过实时 dashboard,快速地进行商业决策。


数据逻辑非常复杂,而且数据本身也是孤立的,eBay 现在通过 data fabric, 把一个从单个部门孤立的分析视角延展到不同的部门,不同业务之间,能够大家共同协作完成一个商业的决定。这是从客户层面我们看到的一个进化,从过去一小部分的核心决策人,延展到每一个人都在使用数据进行分析,以及通过数据来辅助商业决策的用户。

产品角度的演变

从产品层面,eBay 以前依赖于 Teradata,现在发展到了一个自研的基于开源的一整套解决方案。从使用到的技术上来讲,非常契合 Gartner 的预测,有 Data Fabric,智能化数据运维、Ad-hoc OLAP 查询;以及基于 NLP,机器学习等技术的对话式的交互分析。还有 open metadata, 这是整个大数据智能化很重要很重要的一个核心。eBay 做了一个 open metadata framework 去赋能大数据的演进。



上图是 Gartner 在 2019 年提出的十个大数据领域的趋势,eBay 中国研发中心已经在标黄色的五个方面取得了显著的成绩。eBay 的技术人员会继前行,通过实时分析,与业务部门的深度整合,为 eBay 业务部门提供实时、自动化的,可以进一步提升业务能力的建议。



eBay 数据分析生态

iDo

从数据管理这个角度来看,eBay 有一套完整的 intelligent data operation, iDo,它能够自动化地计划、部署所有的作业,然后自动化进行监测。当有一些作业发生问题的时候,可以进行自动修复。Gartner 预测到 2020 年,增强技术可以降低大概 45% 数据运维人员和数据 IT 人员的投入。在 eBay 当这个 iDo 产品推出以后,eBay 数据运维人员减少了 60%。

Open Metadata

这是一个跨平台,跨领域的平台。可以支持 Teradata, Hadoop,以及其他不同的数据源;能够做自动发现,同时通过图谱把不同数据之间的关系、血缘,以及业务逻辑,数据逻辑整合起来。

Zeta

这个平台相当于数据开发工程师的集成开发环境 IDE,它面向所有的数据开发工程师,当数据工程师需要开发一个数据产品时,这个平台能够帮助工程师有效地构建、部署以及调度作业,并帮助数据工程师进行调优;平台也可以自动分析用户的 SQL,帮助用户诊断其性能瓶颈在什么地方,很方便地帮助用户进行 debug 和调优,以及一键式发布;同时还可帮助数据科学家在这个平台进行 ad-hoc 的查询和基本的分析工作。

MMD

MMD, Moving Metrics Detection,这个平台通过无监督机器学习,去发现数据的 pattern,在哪些地方有瓶颈,然后还可以自动地预测数据 pattern 有可能发生的一些趋势变化,重新找到它的 change point,在新的 pattern 下面再进行进一步发现。

GRO

Global Retail Automation,它是通过机器学习理解市场趋势以及帮助销售人员有效地做他们的库存的管理。做这种定位的管理,能够更好地帮助他们驱动他们在 eBay 上的业务增长。

Nous

Nous 是 eBay 的增强分析产品的代表之一,背后是基于 bot 的技术,用户可以跟它进行交互式的数据查询和报表分析。这个产品体现了三个核心价值:


  • 容易,任何一个人可以容易到像在谷歌上搜索一个普通的关键词一样,去搜索要做的数据分析,或者感兴趣的一些商业上的点。

  • 智能,它取代了传统报表,不但能够产生报表,还可做一些具体定位的分析,可能是因为什么原因造成了现在数据上的一些偏差。

  • 快,无论后台是使用 Teradata 还是用 Hadoop,能够实现非常快非常及时的数据分析的结果。



NOUS -操作简便的查询



iBot-对话式查看数据


eBay 在增强分析数据上刚刚迈了第一步,未来还会继续不断地加快在增强型数据分析和数据管理上步伐;eBay 中国研发中心也期待能进一步跟业务部门集成在一起,为业务部门提供更加实时、便捷的分析服务,助力 eBay 创造更多经济价值;同时 eBay 将秉承一贯作风,把好的技术、实践、产品贡献到开源社区,带动整个大数据业界的发展。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-09-04 21:197749
用户头像

发布了 44 篇内容, 共 12.5 次阅读, 收获喜欢 81 次。

关注

评论 1 条评论

发布
用户头像
增长速度惊人。
2020-01-06 21:26
回复
没有更多了
发现更多内容

Img、net & page新展望:连接感知

云小梦

JavaScript html 网络 用户体验 连接感知

2021春招JAVA面试总结:Java+并发+Spring+MySQL+分布式+Redis+算法+JVM等

Java 编程 程序员 架构 面试

浅析Node中间件Koa&Express:原理和实现

云小梦

JavaScript node.js 中间件 koa

ONE MORE

吴小平

如何学习数据结构与算法

C语言与CPP编程

c c++ 数据结构 程序人生 算法

位运算符在 JS 中的妙用

浩浩子

力扣(LeetCode)刷题,简单+中等题(第26期)

不脱发的程序猿

面试 LeetCode 28天写作 算法面经 3月日更

架构师训练营 4 期 第13周

引花眠

架构师训练营 4 期

React 中后台系统多页签实现

清秋

Vue 大前端 React keepalive

数据分析作业-用户分析-ReadHub

隋泽

产品经理训练营

一文搞懂如何实现 Go 超时控制

万俊峰Kevin

微服务 超时 Go 语言

用户体验 | 页面阅读进度提示

云小梦

html css3 用户体验 页面进度提示

HTML5+CSS3高级动画的应用实践

云小梦

JavaScript html css3 浏览器API 网页动画

Redis 作为缓存是如何工作的

escray

redis 学习 极客时间 3月日更 Redis 核心技术与实战

推荐引擎概述

跳蚤

使用Flask Nginx Gunicorn和Supervisor部署一个简单的Restful API接口服务器

Langer

Python 部署与维护 服务器部署 web服务

Mac下brew更新及安装Prometheus+Grafana

程序员架构进阶

容器 Prometheus 监控系统 28天写作 3月日更

Logstash 中 Ruby filter 使用指南

Langer

ruby Logstash ELK

智能时代的TCL之舞

脑极体

加密解密之 crypto-js 知识

浩浩子

SpringBoot + Mybatis + Druid + PageHelper在多数据源下如何配置并实现分页

北游学Java

Java mybatis spring Boot Starter

Java 并发基础(一):synchronized 锁同步

看山

Java Java并发 并发编程

如何学习数据结构与算法

C语言与CPP编程

数据结构 算法

尤雨溪 Twitch 直播:下一代前端构建工具 ViteJS —— Open Source Friday

清秋

翻译 大前端 vite webpack 构建工具

第八章作业

LouisN

shell学习

我是程序员小贱

3月日更

浅析 Fabric Peer 节点

Rayjun

使用 Typescript 的一些注意事项

浩浩子

我对PageRank 算法的理解

跳蚤

用栈、回溯算法设计迷宫程序

不脱发的程序猿

回溯算法 28天写作 3月日更 迷宫程序

散列(哈希)表算法学习

Nick

数据结构 算法 哈希算法

3年从200个数据用户发展到6000人,eBay的大数据平台是如何做到的?_开源_apachekylin_InfoQ精选文章