大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

构建现代化数仓 将 MPP DBMS 迁移至 Spark

  • 2019-09-05
  • 本文字数:558 字

    阅读完需:约 2 分钟

构建现代化数仓 将MPP DBMS迁移至Spark

QCon上海2018大会上,俞育才讲师做了《构建现代化数仓: 将 MPP DBMS 迁移至 Spark》主题演讲,主要内容如下。


演讲简介


eBay 使用 MPP 数据仓库已经有二十年的历史,我们的系统有 60PB 的数据,上万张的核心表,他们支撑着 eBay 最核心的商务逻辑和站点功能。从 17 年开始,eBay 将这个庞大的数仓向 Spark 做迁移,使用我们开发的工具,这其中 90%的工作都可以自动化地完成,并且通过优化 Spark 框架,我们节省了一半的内存。本次演讲我们将分享这迁移过程中的实践,经验与优化。

听众受益

  • 自动化数据迁移工具集:元数据管理,SQL 转换器,管道生成器,数据验证,工作流控制等;

  • 数据的物理布局:如何对表做 bucket 和 partition;

  • 使用 Spark 的 Adaptive Execution 简化参数配置,优化内存使用,处理数据倾斜;

  • 使用 Spark 的 Indexed Bucket 提升大量核心表的查询性能。


讲师介绍


俞育才


eBay 大数据架构师


俞育才,毕业于上海交大,eBay 大数据架构师,负责 Spark 数据平台的设计与优化。12 年软件开发经验,Apache Spark 的活跃开发者,熟悉系统软件的性能分析与调优,为 Spark 设计和实现了自适应执行引擎和层次化存储。在加入 eBay 之前,俞育才在英特尔工作了 9 年,领导团队研究各种前沿的硬件技术加速云和大数据计算。












完整演讲 PPT 下载链接


https://qcon.infoq.cn/2018/shanghai/schedule


2019-09-05 16:383278

评论

发布
暂无评论
发现更多内容

关于大模型语料的迷思

阿里技术

大模型 语料 思维过程

RAG 技术:让 AI 从 “书呆子” 变身 “开卷小天才”!

Alter

AI 大模型 rag

淘宝评价API接口的开发与应用

科普小能手

淘宝 API API 接口 淘宝商品评价接口 淘宝商品API

SD-WAN如何解决企业跨国组网难题

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商 跨国组网 SD-WAN国际专线

不要为了找工作而考证!

老张

考试认证 求职面试

PingCAP 跻身 Forrester Wave 报告,成为唯一连续两次上榜的中国数据库厂商

先锋IT

【JIT/极态云】技术文档-- Word模版

武汉万云网络科技有限公司

低代码

解锁亚马逊购物新境界:深度探索API接口——从商品详情到评论分析,再到关键字搜索实战指南

代码忍者

API 接口 pinduoduo API

工作上个的好搭子——通义灵码测评分享

穿过生命散发芬芳

通义灵码

2024-11-20:交替子数组计数。用go语言,给定一个二进制数组 nums, 如果一个子数组中的相邻元素的值都不相同,我们称这个子数组为交替子数组。 请返回数组 nums 中交替子数组的总数。 输

福大大架构师每日一题

福大大架构师每日一题

1688 API接口详解:商品详情、关键字搜索、店铺商品及按图搜索(拍立淘)

代码忍者

API 接口 pinduoduo API

微店商品详情API接口详解

代码忍者

API 接口 pinduoduo API

软件系统国产化以后,应用是否需要0-1开发?

FinFish

小程序容器 小程序容器技术 纯血鸿蒙 信创操作系统

使用 NGINX 和 NGINX Plus 实现负载均衡(第 2 部分)

NGINX开源社区

负载均衡 读书笔记

Crossover和虚拟机能玩的游戏一样吗 CrossOver相比于虚拟机有哪些优势

阿拉灯神丁

windows 游戏 虚拟机软件 Mac电脑软件 CrossOver 24

深入了解HR人事管理系统:8大厂商的综合评估

易成研发中心

企业人事管理系统对比:9款值得信赖的推荐

易成研发中心

【JIT/极态云】技术文档--应用变量

武汉万云网络科技有限公司

低代码

我用豆包MarsCode IDE 做了一个 CSS 权重小组件

TRAE.ai

CSS 程序员 AI

【论文速读】| RobustKV:通过键值对驱逐防御大语言模型免受越狱攻击

云起无垠

开源可视化工具对比:JimuReport VS DataEase

JEECG低代码

数据可视化 报表 数据大屏 报表工具 仪表盘设计器

如何利用京东API接口在商品详情页展示全网价格数据信息

代码忍者

API 接口 pinduoduo API

构建现代化数仓 将MPP DBMS迁移至Spark_QCon_俞育才_InfoQ精选文章