【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

构建现代化数仓 将 MPP DBMS 迁移至 Spark

  • 2019-09-05
  • 本文字数:558 字

    阅读完需:约 2 分钟

构建现代化数仓 将MPP DBMS迁移至Spark

QCon上海2018大会上,俞育才讲师做了《构建现代化数仓: 将 MPP DBMS 迁移至 Spark》主题演讲,主要内容如下。


演讲简介


eBay 使用 MPP 数据仓库已经有二十年的历史,我们的系统有 60PB 的数据,上万张的核心表,他们支撑着 eBay 最核心的商务逻辑和站点功能。从 17 年开始,eBay 将这个庞大的数仓向 Spark 做迁移,使用我们开发的工具,这其中 90%的工作都可以自动化地完成,并且通过优化 Spark 框架,我们节省了一半的内存。本次演讲我们将分享这迁移过程中的实践,经验与优化。

听众受益

  • 自动化数据迁移工具集:元数据管理,SQL 转换器,管道生成器,数据验证,工作流控制等;

  • 数据的物理布局:如何对表做 bucket 和 partition;

  • 使用 Spark 的 Adaptive Execution 简化参数配置,优化内存使用,处理数据倾斜;

  • 使用 Spark 的 Indexed Bucket 提升大量核心表的查询性能。


讲师介绍


俞育才


eBay 大数据架构师


俞育才,毕业于上海交大,eBay 大数据架构师,负责 Spark 数据平台的设计与优化。12 年软件开发经验,Apache Spark 的活跃开发者,熟悉系统软件的性能分析与调优,为 Spark 设计和实现了自适应执行引擎和层次化存储。在加入 eBay 之前,俞育才在英特尔工作了 9 年,领导团队研究各种前沿的硬件技术加速云和大数据计算。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2018/shanghai/schedule


2019-09-05 16:382991

评论

发布
暂无评论
发现更多内容

实用机器学习笔记二十五:超参数优化

打工人!

学习笔记 超参数调优 机器学习算法 3月月更

如何使用OKR管理团队?

优秀

OceanBase 社区版 运维管控平台 OCP 功能解读

OceanBase 数据库

OCP oceanbase OceanBase 开源 OceanBase 社区版

基于WEB快速开发平台的轻量ERP

雯雯写代码

ERP 快速开发平台

WebRTC 简单入门

ZEGO即构

WebRTC 动手实践 音视频开发 即构科技

云计算及国内主流云厂商概述

穿过生命散发芬芳

3月月更

租房小程序

源字节1号

前端开发 后端开发 租房小程序

租房小程序

源字节1号

前端开发 后端开发 租房小程序

安全app之PHP代码审计

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 代码审计

被冰封的 Bug:Fishhook Crash 修复纪实

声网

Dev for Dev fishhook

杜绝不良信息侵害未成年,皮皮APP发起语音社交行业自律书

联营汇聚

如何从头到脚彻底解决一个MySQL Bug?华为云数据库高级专家带你看

华为云数据库小助手

bug GaussDB 华为云数据库 GaussDB(for MySQL)

企业内PAAS建设的经验与教训

Crazy

中间件 PaaS 经验 云原生应用

openGauss社区成立ReleaseManagement SIG

openGauss

手把手教程|构建无服务器通用文本识别功能

亚马逊云科技 (Amazon Web Services)

架构

Gitlab-ci 替代 webhook 触发Jenkins job

网易云信

gitlab

向工程腐化开炮 | Java代码治理

阿里巴巴终端技术

Java android JVM 代码治理

基于深度学习的时间序列预测

云智慧AIOps社区

聊聊 kerberos 的 kinit 命令和 ccache 机制

明哥的IT随笔

数据安全 kerberos

基于微信小程序的大学社团平台的可研方案

CC同学

如何从头到脚彻底解决一个MySQL Bug

华为云开发者联盟

MySQL 数据库 华为云 bug GaussDB(for MySQL)

打造优质的车联网体验,仍需注意数据安全保护

FinClip

移动域全链路可观测架构和关键技术

阿里巴巴终端技术

架构 App 移动端 体验优化

hexo+github搭建个人博客前期部署工作

静Yu

Hexo

盲盒风潮过后,中国收藏玩具市场该何去何从?

易观分析

盲盒 潮玩

关于知识库:你需要知道的一切

小炮

企业知识管理的目标是什么?

小炮

喜讯!openGauss社区入选2021年 “科创中国”榜单

openGauss

APICloud平台使用融云模块实现音视频通话实践经验总结分享

YonBuilder低代码开发平台

前端开发 APP开发 APICloud 融云 跨端开发

VuePress 博客之 SEO 优化(一) sitemap 与搜索引擎收录

冴羽

Vue vuepress SEO 博客搭建 sitemap

什么是以特性为核心的持续交付|阿里巴巴DevOps实践指南

阿里云云效

云计算 阿里云 研发效能 研发 DevOps实践指南

构建现代化数仓 将MPP DBMS迁移至Spark_QCon_俞育才_InfoQ精选文章