写点什么

3 年从 200 个数据用户发展到 6000 人,eBay 的大数据平台是如何做到的?

  • 2019-09-04
  • 本文字数:2881 字

    阅读完需:约 9 分钟

3年从200个数据用户发展到6000人,eBay的大数据平台是如何做到的?

在 7 月首届 Kylin Data Summit 上,大会特别邀请到了 eBay 全球研发副总裁、中国研发中心总经理田卫女士带来主旨演讲。eBay,这家在国内非常低调的老牌电商,以其深厚的技术基础在业内广受关注。熟悉 Kylin 的朋友也都知道,Kylin 项目最初也正是在 eBay 内部孵化并完成。今天小编就为大家回顾田卫女士当天的演讲,演讲主题是:增强分析在 eBay 的实践。


增强分析

Gartner 在今年 2 月的数据分析峰会上提出了十项数据发展的趋势,其中“增强分析 Augmented Analytics ”被列在第一条, 被 Gartner 誉为“数据和分析的未来”。

在数据可以被分析前,数据工程师需要对数据进行抽取、清洗、融合等准备工作,以提高数据分析的效率和准确性。增强分析 Augmented Analytics 能够帮助普通用户在没有数据科学专家或 IT 人员协助的情况下,访问有效数据,并对理论和假设情况展开测试与验证。增强分析作为数据分析的高级增强阶段,能为分析计划带来更多自动化动能以及创新洞察力。(点击此处,查看 Gartner 对于增强分析的解读)



田卫,eBay 全球研发副总裁、中国研发中心总经理

eBay 的大数据历程

eBay 始于 1994 年,由 eBay 公司发展历史我们也可以窥见整个电商行业的演变。


eBay 保存了世界上第一笔电商交易数据,一直发展到今天,整个世界电商的发展史都能在 eBay 找到它的痕迹。此外,eBay 横跨了全世界 180 多个国家,eBay 的数据不仅仅局限于某一个地区、市场,是包括北美、欧洲、亚太,整个一条完整的数据链。



通过上图,我们可以对 eBay 的大数据平台有一个快速的了解。eBay 现在处理的数据量涵盖 700PB 数据, 每天查询量在 120 万左右,这对 eBay 大数据系统有着很高的要求。


目前参与这个系统的数据工程师有 6 千余人。Gartner 一份报告显示,在高科技公司内,使用数据来驱动业务增长的人数占 32 %的人。反过来看 68%的人还没有真正应用数据,eBay 现在 1 万 4 千人,整个应用数据的人大概达到将近 40% 左右。这个数据也不是一蹴而就的,在 2015 年时,大概只有 200 个数据工程师和数据分析师在应用数据;随着增强型数据平台的推出,用户人数有了大幅增长。



eBay 的大数据生态,以 Data Fabric 为核心。支持以 API 为基础的数据服务。



eBay 的大数据演进之路


从上图可以看到,2005 年 eBay 的数据平台主要是基于 SQL,record report 系统。到 2010 年,转向了 Visual Based Discovery 阶段。2015 年开始, eBay 从 Teradata 向 Hadoop 大数据平台的迁移,Real-time Streaming 也在那一年出现,进入了一个更为高级的 Visual Based Discovery 阶段。2018 年,eBay 大面积开始应用 Hadoop、Spark;以及基于会话式的、NLU 等增强式数据分析解决方案。这其中还包括图谱的元数据管理系统,以及自动商业洞察等新技术, eBay 从 2018 年开始真正意义上向增强分析迈进了一步。


客户角度的演变

从客户角度看 eBay 大数据的演进,最早是专职的数据分析师,现在随着增强分析平台推出,可以延展到每一位 eBay 的员工。即使用户不了解数据在什么地方,不了解整个数据背后复杂业务逻辑,也能够非常简便地去做一些基本数据分析和查询。


从商业决策的流程来看,从过去静态的商业决策,提前通过一些 SQL、dashboard,延展到现在是一个动态的 data dashboard。以前公司领导们在做商业讨论和决策时,都是由分析师拿一些数据报表,现在直接通过 eBay 的增强数据平台,能够直接通过实时 dashboard,快速地进行商业决策。


数据逻辑非常复杂,而且数据本身也是孤立的,eBay 现在通过 data fabric, 把一个从单个部门孤立的分析视角延展到不同的部门,不同业务之间,能够大家共同协作完成一个商业的决定。这是从客户层面我们看到的一个进化,从过去一小部分的核心决策人,延展到每一个人都在使用数据进行分析,以及通过数据来辅助商业决策的用户。

产品角度的演变

从产品层面,eBay 以前依赖于 Teradata,现在发展到了一个自研的基于开源的一整套解决方案。从使用到的技术上来讲,非常契合 Gartner 的预测,有 Data Fabric,智能化数据运维、Ad-hoc OLAP 查询;以及基于 NLP,机器学习等技术的对话式的交互分析。还有 open metadata, 这是整个大数据智能化很重要很重要的一个核心。eBay 做了一个 open metadata framework 去赋能大数据的演进。



上图是 Gartner 在 2019 年提出的十个大数据领域的趋势,eBay 中国研发中心已经在标黄色的五个方面取得了显著的成绩。eBay 的技术人员会继前行,通过实时分析,与业务部门的深度整合,为 eBay 业务部门提供实时、自动化的,可以进一步提升业务能力的建议。



eBay 数据分析生态

iDo

从数据管理这个角度来看,eBay 有一套完整的 intelligent data operation, iDo,它能够自动化地计划、部署所有的作业,然后自动化进行监测。当有一些作业发生问题的时候,可以进行自动修复。Gartner 预测到 2020 年,增强技术可以降低大概 45% 数据运维人员和数据 IT 人员的投入。在 eBay 当这个 iDo 产品推出以后,eBay 数据运维人员减少了 60%。

Open Metadata

这是一个跨平台,跨领域的平台。可以支持 Teradata, Hadoop,以及其他不同的数据源;能够做自动发现,同时通过图谱把不同数据之间的关系、血缘,以及业务逻辑,数据逻辑整合起来。

Zeta

这个平台相当于数据开发工程师的集成开发环境 IDE,它面向所有的数据开发工程师,当数据工程师需要开发一个数据产品时,这个平台能够帮助工程师有效地构建、部署以及调度作业,并帮助数据工程师进行调优;平台也可以自动分析用户的 SQL,帮助用户诊断其性能瓶颈在什么地方,很方便地帮助用户进行 debug 和调优,以及一键式发布;同时还可帮助数据科学家在这个平台进行 ad-hoc 的查询和基本的分析工作。

MMD

MMD, Moving Metrics Detection,这个平台通过无监督机器学习,去发现数据的 pattern,在哪些地方有瓶颈,然后还可以自动地预测数据 pattern 有可能发生的一些趋势变化,重新找到它的 change point,在新的 pattern 下面再进行进一步发现。

GRO

Global Retail Automation,它是通过机器学习理解市场趋势以及帮助销售人员有效地做他们的库存的管理。做这种定位的管理,能够更好地帮助他们驱动他们在 eBay 上的业务增长。

Nous

Nous 是 eBay 的增强分析产品的代表之一,背后是基于 bot 的技术,用户可以跟它进行交互式的数据查询和报表分析。这个产品体现了三个核心价值:


  • 容易,任何一个人可以容易到像在谷歌上搜索一个普通的关键词一样,去搜索要做的数据分析,或者感兴趣的一些商业上的点。

  • 智能,它取代了传统报表,不但能够产生报表,还可做一些具体定位的分析,可能是因为什么原因造成了现在数据上的一些偏差。

  • 快,无论后台是使用 Teradata 还是用 Hadoop,能够实现非常快非常及时的数据分析的结果。



NOUS -操作简便的查询



iBot-对话式查看数据


eBay 在增强分析数据上刚刚迈了第一步,未来还会继续不断地加快在增强型数据分析和数据管理上步伐;eBay 中国研发中心也期待能进一步跟业务部门集成在一起,为业务部门提供更加实时、便捷的分析服务,助力 eBay 创造更多经济价值;同时 eBay 将秉承一贯作风,把好的技术、实践、产品贡献到开源社区,带动整个大数据业界的发展。


2019-09-04 21:198236
用户头像

发布了 44 篇内容, 共 14.1 次阅读, 收获喜欢 83 次。

关注

评论 1 条评论

发布
用户头像
增长速度惊人。
2020-01-06 21:26
回复
没有更多了
发现更多内容

元宇宙里办年会,听演讲、看产品、抽大奖一件不落

Meta 小元

数字孪生 元宇宙

[JAVA冷知识]什么是逆变(contravariant)与协变(covariant)?数组支持协变&逆变吗?泛型呢?

山河已无恙

Java 2月月更

Camtasia音画同步剪辑教程

淋雨

Camtasia 录屏软件

元宇宙的本质特征是五大融合

CECBC

2022-02微软漏洞通告

火绒安全

微软 网络安全 终端安全 漏洞修复

springcloud五大核心组件

编程江湖

redis 面试总结

yuexin_tech

redis 面试

设计模式【14】-- 从智能音箱中学习命令模式

秦怀杂货店

Java 设计模式

2022年的元宇宙,你该知晓些什么?

CECBC

亚信科技AISWare AntDB数据库在运营商核心业务系统的联合实践分享

亚信AntDB数据库

5G AntDB intel 亚信科技

我与Android的故事|社区征文

Changing Lin

android 移动开发 新春征文

Web Components系列(四) —— 认识 Shadow DOM

编程三昧

前端 组件化 HTML5, CSS3 2月月更

一文让你彻底搞懂Python中__str__和__repr__

宇宙之一粟

Python 2月月更

2 月亚马逊云科技培训与认证课程,精彩不容错过!

亚马逊云科技 (Amazon Web Services)

架构师 培训 认证

从小样本学习出发,奔向星辰大海

百度大脑

总结 XSS 与 CSRF 两种跨站攻击

喀拉峻

网络安全

征文投稿丨使用云服务器ECS快速搭建halo博客

阿里云弹性计算

征文投稿 玩转ECS halo博客

5种阿里常用代码检测推荐 | 阿里巴巴DevOps实践指南

阿里云云效

阿里云 云原生 软件开发 研发 DevOps实践指南

浅谈OKR(12/100)

hackstoic

OKR

基于RestTemplate的在线武器库

网络安全学海

黑客 网络安全 信息安全 渗透测试 WEB安全

【安全漏洞】浅谈Bypass Waf (基础-实战)

H

网络安全 渗透测试 漏洞

2022年1月云主机性能评测报告,移动云升至第三

博睿数据

Linux修改drop_caches内核参数来清理缓存的一些笔记

山河已无恙

Linux 2月月更

Java自定义DNS解析器负载均衡实现

FunTester

负载均衡 性能测试 接口测试 DNS FunTester

声网AI降噪测评系统初探

声网

音视频 RTE 技术详解

虚拟空间引领 数字化转型拉开银行差距

CECBC

欧拉的奇异之旅·风暴来临与欧拉初诞

白洞计划

netty系列之:Bootstrap,ServerBootstrap和netty中的实现

程序那些事

Java Netty 程序那些事 2月月更

PingCode Wiki 权限设计之ACL

PingCode研发中心

项目管理 开发 acl PingCode 页面权限

阿里云服务器搭建halo博客从0到1

乌龟哥哥

阿里云 2月月更 halo博客

3年从200个数据用户发展到6000人,eBay的大数据平台是如何做到的?_开源_apachekylin_InfoQ精选文章