AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

构建现代化数仓 将 MPP DBMS 迁移至 Spark

  • 2019-09-05
  • 本文字数:558 字

    阅读完需:约 2 分钟

构建现代化数仓 将MPP DBMS迁移至Spark

QCon上海2018大会上,俞育才讲师做了《构建现代化数仓: 将 MPP DBMS 迁移至 Spark》主题演讲,主要内容如下。


演讲简介


eBay 使用 MPP 数据仓库已经有二十年的历史,我们的系统有 60PB 的数据,上万张的核心表,他们支撑着 eBay 最核心的商务逻辑和站点功能。从 17 年开始,eBay 将这个庞大的数仓向 Spark 做迁移,使用我们开发的工具,这其中 90%的工作都可以自动化地完成,并且通过优化 Spark 框架,我们节省了一半的内存。本次演讲我们将分享这迁移过程中的实践,经验与优化。

听众受益

  • 自动化数据迁移工具集:元数据管理,SQL 转换器,管道生成器,数据验证,工作流控制等;

  • 数据的物理布局:如何对表做 bucket 和 partition;

  • 使用 Spark 的 Adaptive Execution 简化参数配置,优化内存使用,处理数据倾斜;

  • 使用 Spark 的 Indexed Bucket 提升大量核心表的查询性能。


讲师介绍


俞育才


eBay 大数据架构师


俞育才,毕业于上海交大,eBay 大数据架构师,负责 Spark 数据平台的设计与优化。12 年软件开发经验,Apache Spark 的活跃开发者,熟悉系统软件的性能分析与调优,为 Spark 设计和实现了自适应执行引擎和层次化存储。在加入 eBay 之前,俞育才在英特尔工作了 9 年,领导团队研究各种前沿的硬件技术加速云和大数据计算。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2018/shanghai/schedule


2019-09-05 16:383209

评论

发布
暂无评论
发现更多内容

Navicat Premium 16 Mac数据库管理工具

展初云

数据库管理工具 Mac软件

为什么SFA系统会流于形式,赋能型CRM能帮企业解决哪些问题

用友BIP

数智营销

华大北斗荣获2022年广东省制造业单项冠军

江湖老铁

教你如何基于MindSpore进行ChatGLM微调

华为云开发者联盟

人工智能 模型 华为云 华为云开发者联盟

电商运营该如何做AB测试

字节跳动数据平台

大数据 电商 AB testing实战 A/B 测试 企业号9月PK榜

ChatGPT搅动AI芯片的“一池春水”

IC男奋斗史

AI 英伟达 芯片 半导体 AI芯片

DBeaverUltimate 23 for Mac数据库管理软件

展初云

数据库管理 Mac软件

从策略和实践,带你掌握死锁检测

华为云开发者联盟

开发 华为云 图算法 华为云开发者联盟 死锁检测

垂直大模型训练的关键步骤与策略

Geek_cf26da

大模型训练 千帆大模型平台

Chiplet解决芯片技术发展瓶颈

IC男奋斗史

封装 芯片 半导体 chiplet

jq工具及其常用用法 | 京东物流技术团队

京东科技开发者

json 数据处理 jq 企业号10月PK榜

【文末已开奖】10月征文:说出你和极客时间的故事

InfoQ写作社区官方

征文活动 热门活动 活动预告 我和极客时间的故事

log4j2同步日志引发的性能问题 | 京东物流技术团队

京东科技开发者

log4j2 Log4j2 漏洞 日志同步 企业号10月PK榜 性能问题

EVE-NG的Windows客户端安装

小魏写代码

Termius 8 for Mac多协议远程管理软件

展初云

Mac软件 远程连接管理工具 远程访问

秋招过半零Offer怎么办?

王磊

Java

第4期 | 锐变 海量数据、全量洞察

用友BIP

项目管理

华为云发布CodeArts APIMock服务,精准Mock,并行开发零等待!

华为云开发者联盟

云计算 华为云 华为云开发者联盟 华为云CodeArts 并行开发

千帆大模型平台中的Prompt:开发效率与创新的助推器

Geek_cf26da

大模型训练 文心千帆 千帆大模型平台

Fine-tuning: 高效微调大模型的策略

Geek_cf26da

大模型训练 文心千帆 千帆大模型平台

什么???CSS也能原子化! | 京东云技术团队

京东科技开发者

CSS 原子化服务 企业号10月PK榜 unocss

这三大爆款开源项目竟出自同一个20人的小公司?

硅基新手村

GardenPlanner for Mac最新激活版(园林绿化设计软件)

胖墩儿不胖y

Mac软件 园林设计工具

大模型训练:深度学习的高级挑战

Geek_cf26da

大模型训练 大模型 千帆大模型平台

RAG (检索增强生成)技术详解:揭秘基于垂直领域专有数据的Chatbots是如何实现的

Baihai IDP

AI 白海科技 rag 检索增强生成 Chatbots

大模型训练对底模型的影响及应对策略

Geek_cf26da

大模型 文心千帆 千帆大模型平台

构建现代化数仓 将MPP DBMS迁移至Spark_QCon_俞育才_InfoQ精选文章