NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

3 年从 200 个数据用户发展到 6000 人,eBay 的大数据平台是如何做到的?

  • 2019-09-04
  • 本文字数:2881 字

    阅读完需:约 9 分钟

3年从200个数据用户发展到6000人,eBay的大数据平台是如何做到的?

在 7 月首届 Kylin Data Summit 上,大会特别邀请到了 eBay 全球研发副总裁、中国研发中心总经理田卫女士带来主旨演讲。eBay,这家在国内非常低调的老牌电商,以其深厚的技术基础在业内广受关注。熟悉 Kylin 的朋友也都知道,Kylin 项目最初也正是在 eBay 内部孵化并完成。今天小编就为大家回顾田卫女士当天的演讲,演讲主题是:增强分析在 eBay 的实践。


增强分析

Gartner 在今年 2 月的数据分析峰会上提出了十项数据发展的趋势,其中“增强分析 Augmented Analytics ”被列在第一条, 被 Gartner 誉为“数据和分析的未来”。

在数据可以被分析前,数据工程师需要对数据进行抽取、清洗、融合等准备工作,以提高数据分析的效率和准确性。增强分析 Augmented Analytics 能够帮助普通用户在没有数据科学专家或 IT 人员协助的情况下,访问有效数据,并对理论和假设情况展开测试与验证。增强分析作为数据分析的高级增强阶段,能为分析计划带来更多自动化动能以及创新洞察力。(点击此处,查看 Gartner 对于增强分析的解读)



田卫,eBay 全球研发副总裁、中国研发中心总经理

eBay 的大数据历程

eBay 始于 1994 年,由 eBay 公司发展历史我们也可以窥见整个电商行业的演变。


eBay 保存了世界上第一笔电商交易数据,一直发展到今天,整个世界电商的发展史都能在 eBay 找到它的痕迹。此外,eBay 横跨了全世界 180 多个国家,eBay 的数据不仅仅局限于某一个地区、市场,是包括北美、欧洲、亚太,整个一条完整的数据链。



通过上图,我们可以对 eBay 的大数据平台有一个快速的了解。eBay 现在处理的数据量涵盖 700PB 数据, 每天查询量在 120 万左右,这对 eBay 大数据系统有着很高的要求。


目前参与这个系统的数据工程师有 6 千余人。Gartner 一份报告显示,在高科技公司内,使用数据来驱动业务增长的人数占 32 %的人。反过来看 68%的人还没有真正应用数据,eBay 现在 1 万 4 千人,整个应用数据的人大概达到将近 40% 左右。这个数据也不是一蹴而就的,在 2015 年时,大概只有 200 个数据工程师和数据分析师在应用数据;随着增强型数据平台的推出,用户人数有了大幅增长。



eBay 的大数据生态,以 Data Fabric 为核心。支持以 API 为基础的数据服务。



eBay 的大数据演进之路


从上图可以看到,2005 年 eBay 的数据平台主要是基于 SQL,record report 系统。到 2010 年,转向了 Visual Based Discovery 阶段。2015 年开始, eBay 从 Teradata 向 Hadoop 大数据平台的迁移,Real-time Streaming 也在那一年出现,进入了一个更为高级的 Visual Based Discovery 阶段。2018 年,eBay 大面积开始应用 Hadoop、Spark;以及基于会话式的、NLU 等增强式数据分析解决方案。这其中还包括图谱的元数据管理系统,以及自动商业洞察等新技术, eBay 从 2018 年开始真正意义上向增强分析迈进了一步。


客户角度的演变

从客户角度看 eBay 大数据的演进,最早是专职的数据分析师,现在随着增强分析平台推出,可以延展到每一位 eBay 的员工。即使用户不了解数据在什么地方,不了解整个数据背后复杂业务逻辑,也能够非常简便地去做一些基本数据分析和查询。


从商业决策的流程来看,从过去静态的商业决策,提前通过一些 SQL、dashboard,延展到现在是一个动态的 data dashboard。以前公司领导们在做商业讨论和决策时,都是由分析师拿一些数据报表,现在直接通过 eBay 的增强数据平台,能够直接通过实时 dashboard,快速地进行商业决策。


数据逻辑非常复杂,而且数据本身也是孤立的,eBay 现在通过 data fabric, 把一个从单个部门孤立的分析视角延展到不同的部门,不同业务之间,能够大家共同协作完成一个商业的决定。这是从客户层面我们看到的一个进化,从过去一小部分的核心决策人,延展到每一个人都在使用数据进行分析,以及通过数据来辅助商业决策的用户。

产品角度的演变

从产品层面,eBay 以前依赖于 Teradata,现在发展到了一个自研的基于开源的一整套解决方案。从使用到的技术上来讲,非常契合 Gartner 的预测,有 Data Fabric,智能化数据运维、Ad-hoc OLAP 查询;以及基于 NLP,机器学习等技术的对话式的交互分析。还有 open metadata, 这是整个大数据智能化很重要很重要的一个核心。eBay 做了一个 open metadata framework 去赋能大数据的演进。



上图是 Gartner 在 2019 年提出的十个大数据领域的趋势,eBay 中国研发中心已经在标黄色的五个方面取得了显著的成绩。eBay 的技术人员会继前行,通过实时分析,与业务部门的深度整合,为 eBay 业务部门提供实时、自动化的,可以进一步提升业务能力的建议。



eBay 数据分析生态

iDo

从数据管理这个角度来看,eBay 有一套完整的 intelligent data operation, iDo,它能够自动化地计划、部署所有的作业,然后自动化进行监测。当有一些作业发生问题的时候,可以进行自动修复。Gartner 预测到 2020 年,增强技术可以降低大概 45% 数据运维人员和数据 IT 人员的投入。在 eBay 当这个 iDo 产品推出以后,eBay 数据运维人员减少了 60%。

Open Metadata

这是一个跨平台,跨领域的平台。可以支持 Teradata, Hadoop,以及其他不同的数据源;能够做自动发现,同时通过图谱把不同数据之间的关系、血缘,以及业务逻辑,数据逻辑整合起来。

Zeta

这个平台相当于数据开发工程师的集成开发环境 IDE,它面向所有的数据开发工程师,当数据工程师需要开发一个数据产品时,这个平台能够帮助工程师有效地构建、部署以及调度作业,并帮助数据工程师进行调优;平台也可以自动分析用户的 SQL,帮助用户诊断其性能瓶颈在什么地方,很方便地帮助用户进行 debug 和调优,以及一键式发布;同时还可帮助数据科学家在这个平台进行 ad-hoc 的查询和基本的分析工作。

MMD

MMD, Moving Metrics Detection,这个平台通过无监督机器学习,去发现数据的 pattern,在哪些地方有瓶颈,然后还可以自动地预测数据 pattern 有可能发生的一些趋势变化,重新找到它的 change point,在新的 pattern 下面再进行进一步发现。

GRO

Global Retail Automation,它是通过机器学习理解市场趋势以及帮助销售人员有效地做他们的库存的管理。做这种定位的管理,能够更好地帮助他们驱动他们在 eBay 上的业务增长。

Nous

Nous 是 eBay 的增强分析产品的代表之一,背后是基于 bot 的技术,用户可以跟它进行交互式的数据查询和报表分析。这个产品体现了三个核心价值:


  • 容易,任何一个人可以容易到像在谷歌上搜索一个普通的关键词一样,去搜索要做的数据分析,或者感兴趣的一些商业上的点。

  • 智能,它取代了传统报表,不但能够产生报表,还可做一些具体定位的分析,可能是因为什么原因造成了现在数据上的一些偏差。

  • 快,无论后台是使用 Teradata 还是用 Hadoop,能够实现非常快非常及时的数据分析的结果。



NOUS -操作简便的查询



iBot-对话式查看数据


eBay 在增强分析数据上刚刚迈了第一步,未来还会继续不断地加快在增强型数据分析和数据管理上步伐;eBay 中国研发中心也期待能进一步跟业务部门集成在一起,为业务部门提供更加实时、便捷的分析服务,助力 eBay 创造更多经济价值;同时 eBay 将秉承一贯作风,把好的技术、实践、产品贡献到开源社区,带动整个大数据业界的发展。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-09-04 21:197769
用户头像

发布了 44 篇内容, 共 12.6 次阅读, 收获喜欢 81 次。

关注

评论 1 条评论

发布
用户头像
增长速度惊人。
2020-01-06 21:26
回复
没有更多了
发现更多内容

华为云数据库GaussDB(for MySQL)全方位守护企业云上数据安全

爱科技的水月

Java高手速成│编写你第一个数据库程序

TiAmo

JDBC 数据库· 12月月更

如何写一个深度学习编译器

MegEngineBot

深度学习 开源 编译器 MegEngine MegCC

Git使用教程之本地仓库的基本操作

智趣匠

git git 学习 Git命令行

三个延伸打法,撑起华为云桌面的7年领跑

路过的憨憨

【5000字长文】从 S3 到 DataZone,亚马逊云科技用16年讲完一个数据的故事

亚马逊云科技 (Amazon Web Services)

亚马逊云科技 Builder 专栏

2022-12-27:etcd是无界面的,不好看,joinsunsoft/etcdv3-browser是etcd的web可视化工具之一。请问在k3s中部署,yaml如何写?

福大大架构师每日一题

云原生 k8s etcd k3s 福大大

企业金融App评测系列——微众银行以App构筑企业金融服务新生态,成为企业的随身数字银行

易观分析

企业 金融 银行

大咖说·阿里云教育|“网上浙大”数字化之路

大咖说

数字化 高校

数据代码如何“产地直销”,做到持续集成持续发布?

数造万象

HTTP实体首部字段

穿过生命散发芬芳

HTTP 12月月更

架构实战营模块三作业

张贺

华为云数据库助力微鲤科技智能升级

爱科技的水月

DAG任务调度系统 Taier 演进之道,探究DataSourceX 模块

袋鼠云数栈

开源

高可用软件什么意思?哪些高可用软件好用?

行云管家

高可用 双机热备 高可用软件

【web 开发基础】PHP数组元素的添加和删除操作 (49)

迷彩

数组 数组操作 PHP基础 先进先出 后进先出

基于聚类算法的话术挖掘技术及在营销服场景的落地应用

中关村科金

人工智能 大数据 算法 对话机器人 技术实践

无魅友,不魅族!魅族大力推广魅友文化,用行动阐述何为用户共创

Geek_2d6073

DevSecOps 需要知道的十大 K8s 安全风险及建议

SEAL安全

k8s DevSecOps 12 月 PK 榜

转转AB平台的设计与实现

转转技术团队

大数据 A/B 测试

深耕数字办公,华为云桌面怎样带来高效办公体验?

路过的憨憨

MAXHUB+腾讯会议:为未来办公造一部动力引擎

脑极体

丧心病狂,竟有Thread.sleep(0)这种神仙写法?

JAVA旭阳

Java JVM

物联网 IOT 设备如何脱离信息孤岛?

eng八戒

物联网 IoT 网络 网络配置 涂鸦智能

Code Review到底在关注些什么?

孟君的编程札记

Java CodeReview

【2023】合肥市等保测评有哪些公司?地址在哪里?

行云管家

等级保护 等保测评 等保2.0 合肥

今明两天,eBPF 技术探索和 Intel Arch 两大技术 SIG 继续开讲 | 第 57-58 期

OpenAnolis小助手

开源 ebpf intel 龙蜥大讲堂 浪潮信息

Docker 中的挂载卷

HoneyMoose

「Go框架」http请求处理流程: gin、beego等web框架是如何处理http请求的?

Go学堂

golang 开源 程序员 个人成长 12月月更

手游“Lord of Dragons Global”进军P2E市场

科技热闻

国产ETL 星光不问赶路人 时我不待

weigeonlyyou

oracle Prometheus Clickhouse MySQL 数据库 InfluxDB Cluster

3年从200个数据用户发展到6000人,eBay的大数据平台是如何做到的?_开源_apachekylin_InfoQ精选文章