【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

把嵌套列表作为 Apache Spark SQL 的首选

  • 2019-08-15
  • 本文字数:1569 字

    阅读完需:约 5 分钟

把嵌套列表作为 Apache Spark SQL 的首选

ArchSummit深圳2019大会上,蔡東邦 (DB Tsai)讲师做了《把嵌套列表作为 Apache Spark SQL 的首选》主题演讲,主要内容如下。


演讲简介


Making Nested Columns as First Citizen in Apache Spark SQL


Apple Siri is the world’s largest virtual assistant service powering every iPhone, iPad, Mac, Apple TV, Apple Watch, and HomePod. We use large amounts of data to provide our users the best possible personalized experience. Our raw event data is cleaned and pre-joined into an unified data for our data consumers to use. To keep the rich hierarchical structure of the data, our data schemas are very deep nested structures. In this talk, we will discuss how Spark handles nested structures in Spark 2.4, and we’ll show the fundamental design issues in reading nested fields which is not being well considered when Spark SQL was designed. This results in Spark SQL reading unnecessary data in many operations. Given that Siri’s data is super nested and humongous, this soon becomes a bottleneck in our pipelines.


Then we will talk about the various approaches we have taken to tackle this problem. By making nested columns as first citizen in Spark SQL, we can achieve dramatic performance gain. In some of our production queries, the speed-up can be 20x in wall clock time and 8x less data being read. All of our work will be open source, and some has already been merged into upstream.


参考译文:


Apple Siri 是世界上最大的虚拟助理服务,为每部 iPhone,iPad,Mac,Apple TV,Apple Watch 和 HomePod 提供服务支持。我们使用大量数据来为用户提供最佳的个性化体验。所有的原始事件数据被清理并预先加入到统一数据中,供我们的数据使用者使用。为了保持数据的丰富层次结构,我们的数据模式采用了非常深的嵌套结构。


在本次演讲中,我将讨论 Spark 如何处理 Spark 2.4 中的嵌套结构,还会展示读取嵌套字段时的基本设计问题,这些问题在设计 Spark SQL 时并未得到充分考虑。这就导致了 Spark SQL 在许多操作中读取不必要的数据。鉴于 Siri 超级嵌套的数据非常庞大,它很快就成了瓶颈所在。


之后,我会介绍为解决这个问题所采取的各种方法。将嵌套列作为 Spark SQL 中的第一个公民,在性能上获得显着的提升。在我们的一些生产查询中,加速 20 倍,读取的数据减少 8 倍。我们所有的工作都将开源,有些已经合并到了核心区域。


讲师介绍


蔡東邦 (DB Tsai)


Apple Staff Software Engineer & Apache Spark PMC


DB Tsai is an Apache Spark PMC / Committer and an open source and staff software engineer at Apple Siri. He implemented several algorithms including linear models with Elastici-Net (L1/L2) regularization using LBFGS/OWL-QN optimizers in Apache Spark. Prior to joining Apple, DB worked on Personalized Recommendation ML Algorithms at Netflix. DB was a Ph.D. candidate in Applied Physics at Stanford University. He holds a Master’s degree in Electrical Engineering from Stanford.


译文参考:


蔡東邦老师是 Apache Spark PMC / Committer,同时也是 Apple Siri 的主任工程师。他将多个算法应用到了 Apache Spark 当中,包括使用了 LBFGS / OWL-QN 优化器 的 Elastici-Net(L1 / L2)正则化的线性模型。在加入 Apple Siri 之前,蔡老师在 Netflix 从事个性化推荐机器学习算法的研究工作。目前是斯坦福大学应用物理专业的博士候选人,也获得了斯坦福大学电气工程硕士学位。












完整演讲 PPT 下载链接


https://archsummit.infoq.cn/2019/shenzhen/schedule


2019-08-15 00:009312

评论

发布
暂无评论
发现更多内容

苹果电脑专业测试跑分工具:Geekbench 6 mac破解版 支持m1/m2

Rose

系统跑分 Geekbench 6

Eagle文件图片管理工具 Eagle mac破解版 支持m1/m2

Rose

Eagle Eagle下载 图片管理软件

Text Workflow for mac(文本格式转换工具)v1.8.4直装激活版

影影绰绰一往直前

低代码开发会是前端程序员的下一个春天吗?

伤感汤姆布利柏

程序员 前端 低代码 程序员前端

听GPT 讲Rust源代码--compiler(35)

fliter

听GPT 讲Rust源代码--compiler(40)

fliter

Notebooks for Mac(多功能记事本)v3.3.5激活版

影影绰绰一往直前

iA Writer for Mac(mac好用的写作软件)v7.0.6中文激活版

iMac小白

如何应对Android面试官->文件IO、手写APK加固框架核心实现(下)

老A说

Java’ an'droid

听GPT 讲Rust源代码--compiler(38)

fliter

每期10万奖金,寻找敢为人先的AI原生应用开发者

科技热闻

秒合约丨合约丨现货交易系统开发丨现成源码搭建

l8l259l3365

Luminar Neo下载破解——智能AI图像编辑处理工具

Rose

Luminar Neo 图像处理软件

uDock for Mac(Dock栏快速启动程序)v4.1.1激活版

影影绰绰一往直前

青否交互式数字人正式上线,源码独立部署!

青否数字人

数字人

Microsoft Remote Desktop Beta for Mac(微软远程连接工具)v10.9.6 (2182)激活版

影影绰绰一往直前

Fork for Mac(Git客户端)v2.39激活版

iMac小白

EverWeb for Mac(网页设计软件)v4.1.0中文版

iMac小白

听GPT 讲Rust源代码--compiler(39)

fliter

互动数字人的使用步骤!

青否数字人

数字人

4K Video Downloader Plus Pro for Mac(4K视频下载器)v1.4.2激活版

影影绰绰一往直前

Vidmore Screen Recorder for Mac(屏幕录制软件) v1.1.26激活版

影影绰绰一往直前

Cheetah3D for mac(3D渲染建模软件)v8.0激活版

影影绰绰一往直前

听GPT 讲Rust源代码--compiler(37)

fliter

movistpro在mac怎么破解?Movist Pro for mac中文直装破解版下载

Rose

mac视频播放器 Movist Pro 中文版 Movist Pro 破解

数字人实时互动速度史无前例!

青否数字人

数字人

Fig Player for mac:自带音乐模式的媒体播放器 支持m1/m2

Rose

Mac软件 Fig Player破解下载 多媒体播放器 Fig Player Mac版

4K YouTube to MP3 for Mac(在线视频转Mp3软件)v5.1.2中文激活版

影影绰绰一往直前

RazorSQL for Mac(多功能SQL数据库编辑器)v10.5.3注册激活版

影影绰绰一往直前

Tipard Screen Capture for mac(超好用的录屏软件)v1.1.26激活版

影影绰绰一往直前

JetBrains pycharm pro 2023 for mac(Python编辑开发)v2023.3.3中文激活版

影影绰绰一往直前

把嵌套列表作为 Apache Spark SQL 的首选_ArchSummit_蔡東邦 (DB Tsai)_InfoQ精选文章