2月5-7日QCon全球软件开发大会携手100+位大咖讲师落定北京,点击查看完整日程>> 了解详情
写点什么

构建现代化数仓 将 MPP DBMS 迁移至 Spark

  • 2019-09-05
  • 本文字数:558 字

    阅读完需:约 2 分钟

构建现代化数仓 将MPP DBMS迁移至Spark

QCon上海2018大会上,俞育才讲师做了《构建现代化数仓: 将 MPP DBMS 迁移至 Spark》主题演讲,主要内容如下。


演讲简介


eBay 使用 MPP 数据仓库已经有二十年的历史,我们的系统有 60PB 的数据,上万张的核心表,他们支撑着 eBay 最核心的商务逻辑和站点功能。从 17 年开始,eBay 将这个庞大的数仓向 Spark 做迁移,使用我们开发的工具,这其中 90%的工作都可以自动化地完成,并且通过优化 Spark 框架,我们节省了一半的内存。本次演讲我们将分享这迁移过程中的实践,经验与优化。


听众受益

  • 自动化数据迁移工具集:元数据管理,SQL 转换器,管道生成器,数据验证,工作流控制等;

  • 数据的物理布局:如何对表做 bucket 和 partition;

  • 使用 Spark 的 Adaptive Execution 简化参数配置,优化内存使用,处理数据倾斜;

  • 使用 Spark 的 Indexed Bucket 提升大量核心表的查询性能。


讲师介绍


俞育才


eBay 大数据架构师


俞育才,毕业于上海交大,eBay 大数据架构师,负责 Spark 数据平台的设计与优化。12 年软件开发经验,Apache Spark 的活跃开发者,熟悉系统软件的性能分析与调优,为 Spark 设计和实现了自适应执行引擎和层次化存储。在加入 eBay 之前,俞育才在英特尔工作了 9 年,领导团队研究各种前沿的硬件技术加速云和大数据计算。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2018/shanghai/schedule


2019-09-05 16:382834

评论

发布
暂无评论
发现更多内容

Web3极客日报#130

谢锐 | Frozen

区块链 创业 独立开发者 技术社区 Rebase

技术“大跃进”进行中

冯夷

基础设施

在 VPS 里搭建 Drone CI 持续集成构建系统

Gadzan

Docker ci DevOps cicd 持续集成

Web3极客日报 #132

谢锐 | Frozen

区块链 创业 独立开发者 技术社区 Rebase

苟富贵,勿相忘

十三

改变

一把梭

生活 随笔

有问必答(2020-04-23):为什么读书?怎么读书比较高效?

冯夷

你问我答

Windows中使用vagrant+virtual box创建Docker

Java收录阁

Docker vagrant

Web3极客日报 #133

谢锐 | Frozen

区块链 技术社区 Rebase

《我是余欢水》与《一个叫欧维的男人决定去死》

十三

Disruptor 高效的秘密-Sequencer

Rayjun

Java 并发编程 Disruptor

小小说

冯夷

科技 vs 隐私:瘟疫下“以健康为名”会将我们推向何方?

陶乐思

面向兴趣编程 - 一条微博和一个小程序的故事

遇见

小程序 微信小程序 副业 面向兴趣编程

Firefox浏览器背后的力量,Mozilla基金会的“生财”之道

赵新龙

firefox 开源 基金会

Web3极客日报#131

谢锐 | Frozen

区块链 创业 独立开发者 技术社区 Rebase

有问必答(2020-04-24):如何做时间管理/任务管理?

冯夷

你问我答

使用Kubeadm搭建Kubernetes集群

Java收录阁

Kubernetes k8s

疫情故事一则 | 庆祝北京应急响应调为二级

赵新龙

滴滴 顺风车

回"疫"录(7):关键时刻稳住别浪

小天同学

疫情 回忆录 现实纪录 纪实

万物皆逝

冯夷

生活

论十三

十三

怎样打造用户喜爱的产品

孙苏勇

思考 产品设计 读书

从“中国GPL诉讼第一案”聊聊开源软件的license许可证

赵新龙

GitHub 开源 许可证

如何表达自己的感情?

zkh

HTTP的德性

十三

有问必答(2020-03-28):活着是为了什么?

冯夷

生活

没有了手机的诺基亚,过得远比你想象的要好

赵新龙

微软 手机 上市 诺基亚

消息队列Kafka - 原理分析

Java收录阁

kafka

Block底层原理探析

Damien

ios 源码分析

消息队列Kafka - 基本应用

Java收录阁

kafka

构建现代化数仓 将MPP DBMS迁移至Spark_QCon_俞育才_InfoQ精选文章