写点什么

构建现代化数仓 将 MPP DBMS 迁移至 Spark

  • 2019-09-05
  • 本文字数:558 字

    阅读完需:约 2 分钟

构建现代化数仓 将MPP DBMS迁移至Spark

QCon上海2018大会上,俞育才讲师做了《构建现代化数仓: 将 MPP DBMS 迁移至 Spark》主题演讲,主要内容如下。


演讲简介


eBay 使用 MPP 数据仓库已经有二十年的历史,我们的系统有 60PB 的数据,上万张的核心表,他们支撑着 eBay 最核心的商务逻辑和站点功能。从 17 年开始,eBay 将这个庞大的数仓向 Spark 做迁移,使用我们开发的工具,这其中 90%的工作都可以自动化地完成,并且通过优化 Spark 框架,我们节省了一半的内存。本次演讲我们将分享这迁移过程中的实践,经验与优化。

听众受益

  • 自动化数据迁移工具集:元数据管理,SQL 转换器,管道生成器,数据验证,工作流控制等;

  • 数据的物理布局:如何对表做 bucket 和 partition;

  • 使用 Spark 的 Adaptive Execution 简化参数配置,优化内存使用,处理数据倾斜;

  • 使用 Spark 的 Indexed Bucket 提升大量核心表的查询性能。


讲师介绍


俞育才


eBay 大数据架构师


俞育才,毕业于上海交大,eBay 大数据架构师,负责 Spark 数据平台的设计与优化。12 年软件开发经验,Apache Spark 的活跃开发者,熟悉系统软件的性能分析与调优,为 Spark 设计和实现了自适应执行引擎和层次化存储。在加入 eBay 之前,俞育才在英特尔工作了 9 年,领导团队研究各种前沿的硬件技术加速云和大数据计算。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2018/shanghai/schedule


2019-09-05 16:383171

评论

发布
暂无评论
发现更多内容

高性能网络SIG双月动态:加速 SMC eBPF 透明替换特性上游化进程,并与上游深度研讨新特性

OpenAnolis小助手

操作系统 龙蜥社区 smc 龙蜥SIG月报

【Redis技术进阶之路】「原理分析系列开篇」探索事件驱动枚型与数据特久化原理实现(数据持久化的实现AOF)

码界西柚

数据库 redis redis持久化 aof Redis底层原理

分布式事务的模式

陈一之

架构 分布式 分布式事务 事务

今日最新消息!黑龙江网络安全等级保护备案新规定,速看!

黑龙江陆陆信息测评部

数字化转型投入大、见效慢?中小企业该如何应对?

天津汇柏科技有限公司

数字化转型

在京东做技术是种什么体验?| 13位零售人告诉你答案

京东零售技术

龙蜥 2024 年度“最佳合作伙伴”揭晓!申威、AMD 等多家新晋贡献厂商实力登榜

OpenAnolis小助手

操作系统 龙蜥社区 OpenAnolis 龙蜥社区年度优秀贡献者

面试官:谈谈你对Reactor模型的理解?

王磊

这些搜索技巧你不会?

沉浸式趣谈

《汽车电机MES系统实战指南:打造柔性化智能产线的4大核心模块与3项关键技术突破》​

万界星空科技

mes 制造业工厂 电机MES 汽车电机 汽车电机mes

保姆级离线 TiDB V8+ 解释

TiDB 社区干货传送门

8.x 实践

Karmada v1.13 版本发布!新增应用优先级调度能力

华为云原生团队

云计算 容器 云原生

“官方网站+公开课程”双赋能,鸿蒙游戏开发者服务焕新升级

最新动态

TiCDC 新架构 v9.0.0 使用实践

TiDB 社区干货传送门

TiCDC新架构

荣耀时刻!第二届开放原子大赛-OS Copilot 学习赛获奖名单新鲜出炉

OpenAnolis小助手

开源 操作系统 龙蜥社区 龙蜥赛事

TiDB × AI :DeepSeek 时代你需要什么样的数据基座

PingCAP

AI TiDB DeepSeek

解析稳定率达99.99%!合合信息“大模型加速器2.0”助力AI打破“幻觉”

合合技术团队

人工智能 #算法 #大数据 图表解析

【2月13日 - 3月14日】TiCDC 新架构试用通道正式开启,全新升级,抢先体验,多重参与奖励等你拿!

TiDB 社区干货传送门

用 tcpdump 分析 Java 客户端的 prepare 行为

TiDB 社区干货传送门

性能调优 故障排查/诊断

重识 APO:DeepSeek 掀起可观性领域变革 | 龙蜥生态

OpenAnolis小助手

AI 系统运维 apo 龙蜥生态 DeepSeek

高性能存储SIG月度动态:erofs快照器合入containerd社区,ANCK支持virtio-blk直通

OpenAnolis小助手

操作系统 高性能存储 龙蜥社区 龙蜥社区SIG EROFS

龙蜥社区第六届理事大会成功举行,共话技术创新与生态合作

OpenAnolis小助手

开源 龙蜥社区 OpenAnolis 龙蜥社区理事大会

下一代产品的“双向奔赴”  鸿蒙版百度网盘发布多项领先AI能力

极客天地

Karmada v1.13 版本发布!新增应用优先级调度能力

华为云开发者联盟

容器 云原生 集群 Karmada

CST软件如何用天线远场计算Group delay延时

思茂信息

cst CST软件 CST Studio Suite

SysOM 可观测体系建设(一):万字长文解读低开销、高精度性能剖析工具livetrace

OpenAnolis小助手

AI 可观测性 SysOM 龙蜥系统运维联盟 livetrace

深入探究小红书笔记详情页面数据采集接口​

tbapi

小红书笔记详情接口 小红书API

多智能体强化学习的算力调度创新,让每一份算力都创造广告价值 | 京东零售技术实践

京东零售技术

电子签借贷真实吗?315报道引发的行业地震!电子签到底冤不冤?

易成研发中心

《Operating System Concepts》阅读笔记:p449-p459

codists

操作系统

重塑家庭观影标准,海信激光电视探索X1斩获艾普兰奖

新消费日报

构建现代化数仓 将MPP DBMS迁移至Spark_QCon_俞育才_InfoQ精选文章