构建现代化数仓 将 MPP DBMS 迁移至 Spark

阅读数:2174 2019 年 9 月 5 日 16:38

构建现代化数仓 将MPP DBMS迁移至Spark

QCon 上海 2018 大会上,俞育才讲师做了《构建现代化数仓: 将 MPP DBMS 迁移至 Spark》主题演讲,主要内容如下。

演讲简介

eBay 使用 MPP 数据仓库已经有二十年的历史,我们的系统有 60PB 的数据,上万张的核心表,他们支撑着 eBay 最核心的商务逻辑和站点功能。从 17 年开始,eBay 将这个庞大的数仓向 Spark 做迁移,使用我们开发的工具,这其中 90% 的工作都可以自动化地完成,并且通过优化 Spark 框架,我们节省了一半的内存。本次演讲我们将分享这迁移过程中的实践,经验与优化。

听众受益

  • 自动化数据迁移工具集:元数据管理,SQL 转换器,管道生成器,数据验证,工作流控制等;
  • 数据的物理布局:如何对表做 bucket 和 partition;
  • 使用 Spark 的 Adaptive Execution 简化参数配置,优化内存使用,处理数据倾斜;
  • 使用 Spark 的 Indexed Bucket 提升大量核心表的查询性能。

讲师介绍

俞育才

eBay 大数据架构师

俞育才,毕业于上海交大,eBay 大数据架构师,负责 Spark 数据平台的设计与优化。12 年软件开发经验,Apache Spark 的活跃开发者,熟悉系统软件的性能分析与调优,为 Spark 设计和实现了自适应执行引擎和层次化存储。在加入 eBay 之前,俞育才在英特尔工作了 9 年,领导团队研究各种前沿的硬件技术加速云和大数据计算。

构建现代化数仓 将MPP DBMS迁移至Spark

构建现代化数仓 将MPP DBMS迁移至Spark

构建现代化数仓 将MPP DBMS迁移至Spark

构建现代化数仓 将MPP DBMS迁移至Spark

构建现代化数仓 将MPP DBMS迁移至Spark

构建现代化数仓 将MPP DBMS迁移至Spark

构建现代化数仓 将MPP DBMS迁移至Spark

构建现代化数仓 将MPP DBMS迁移至Spark

构建现代化数仓 将MPP DBMS迁移至Spark

构建现代化数仓 将MPP DBMS迁移至Spark

完整演讲 PPT 下载链接

https://qcon.infoq.cn/2018/shanghai/schedule

评论

发布