硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

构建现代化数仓 将 MPP DBMS 迁移至 Spark

  • 2019-09-05
  • 本文字数:558 字

    阅读完需:约 2 分钟

构建现代化数仓 将MPP DBMS迁移至Spark

QCon上海2018大会上,俞育才讲师做了《构建现代化数仓: 将 MPP DBMS 迁移至 Spark》主题演讲,主要内容如下。


演讲简介


eBay 使用 MPP 数据仓库已经有二十年的历史,我们的系统有 60PB 的数据,上万张的核心表,他们支撑着 eBay 最核心的商务逻辑和站点功能。从 17 年开始,eBay 将这个庞大的数仓向 Spark 做迁移,使用我们开发的工具,这其中 90%的工作都可以自动化地完成,并且通过优化 Spark 框架,我们节省了一半的内存。本次演讲我们将分享这迁移过程中的实践,经验与优化。

听众受益

  • 自动化数据迁移工具集:元数据管理,SQL 转换器,管道生成器,数据验证,工作流控制等;

  • 数据的物理布局:如何对表做 bucket 和 partition;

  • 使用 Spark 的 Adaptive Execution 简化参数配置,优化内存使用,处理数据倾斜;

  • 使用 Spark 的 Indexed Bucket 提升大量核心表的查询性能。


讲师介绍


俞育才


eBay 大数据架构师


俞育才,毕业于上海交大,eBay 大数据架构师,负责 Spark 数据平台的设计与优化。12 年软件开发经验,Apache Spark 的活跃开发者,熟悉系统软件的性能分析与调优,为 Spark 设计和实现了自适应执行引擎和层次化存储。在加入 eBay 之前,俞育才在英特尔工作了 9 年,领导团队研究各种前沿的硬件技术加速云和大数据计算。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2018/shanghai/schedule


2019-09-05 16:383255

评论

发布
暂无评论
发现更多内容

阿里内部首发1000页涨薪面试宝典:Spring+SpringMVC+MyBatis框架整合开发实战

Java架构追梦

Java 源码 架构 面试 SSM框架

真香!天天996进不去阿里?看5年苦逼程序猿怎么逆袭阿里P7

小Q

Java 学习 架构 面试 程序猿

极客大学 - 架构师训练营 第六周作业

9527

码农会锁,synchronized 对象头结构(mark-word、Klass Pointer)、指针压缩、锁竞争,源码解毒、深度分析!

小傅哥

小傅哥 虚拟机 synchronized mark-word Klass Pointer

狼人杀背后的秘密,实时语音你不知道的那些事

anyRTC开发者

音视频 WebRTC 语音 RTC 安卓

gRPC服务注册发现及负载均衡的实现方案与源码解析

网管

负载均衡 gRPC etcd 服务注册与发现 Go 语言

在阿里内部,做Java到金字塔顶端的人平时都如何学习源码?

小Q

Java 学习 架构 面试 程序猿

通过GUI界面更改 Ubuntu 20 LTS apt 源为阿里云

jiangling500

ubuntu 阿里云 apt

数字“异化”生存

脑极体

《Maven实战》.pdf

田维常

程序员

面试官:面对千万级、亿级流量怎么处理?

艾小仙

Java 缓存 分布式 高并发 中间件

第6周作业

饭桶

零基础IM开发入门(三):什么是IM系统的可靠性?

JackJiang

网络编程 即时通讯 IM

企业级RPC框架zRPC

万俊峰Kevin

RPC microser Go 语言

DeFi流动性挖矿系统开发技术方案

薇電13242772558

区块链 defi

第6周学习总结

饭桶

分析和解决JAVA 内存泄露的实战例子

AI乔治

Java 架构 JVM 内存泄露

小白学算法:买卖股票的最佳时机!

王磊

Java 算法

为产业AI去障:联想的边缘突破

脑极体

Vidyo独特的互联网适应性

dwqcmo

音视频 集成架构 解决方案 智能硬件

Flink在窗口上应用函数-6-9

小知识点

scala 大数据 flink

甲方日常 40

句子

工作 随笔杂谈 日常

频繁操作本地缓存导致YGC耗时过长

AI乔治

Java 架构 JVM GC

极客大学 - 架构师训练营 第六周

9527

ConcurrentHashMap核心原理,彻底给整明白了

AI乔治

Java 架构 分布式 线程

web worker的介绍和使用

程序那些事

多线程 Web Worker 异步模型 异步编程 web技术

直播带货大战在即:账号交易灰产猖獗

石头IT视角

当 TiDB 与 Flink 相结合:高效、易用的实时数仓

Apache Flink

flink #TiDB

架构师训练营第二周课后作业

天涯若海

极客大学架构师训练营

Netty源码解析 -- 零拷贝机制与ByteBuf

binecy

Netty 源码剖析

天呐!价值2980元Java成神面试题竟在Github开源了

996小迁

Java 学习 架构 面试

构建现代化数仓 将MPP DBMS迁移至Spark_QCon_俞育才_InfoQ精选文章