Spark SQL 在字节跳动数据仓库领域的优化实践

阅读数:4 2019 年 9 月 2 日 00:00

Spark SQL 在字节跳动数据仓库领域的优化实践

Spark 在字节跳动内部扮演着重要角色。在数据仓库领域,Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎,另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据,单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署,因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果,介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。字节跳动数据仓库架构负责人郭俊即将在 QCon 全球软件开发大会(上海站)2019 分享《 Spark SQL 在字节跳动数据仓库领域的优化实践

听众受益

  1. 了解超大规模 Spark 集群在海量数据场景下的挑战和痛点;
  2. 了解字节跳动如何提升 Spark 作业的稳定性;
  3. 了解字节跳动如何将离线任务从 MapReduce 平滑迁移至 Spark;
  4. 了解字节跳动如何从逻辑计划优化,物理计划优化,以及运行时优化等不同维度优化 Spark SQL 的整体性能。

嘉宾介绍

郭俊,就职于字节跳动(上海)基础架构部,现负责数据仓库架构,包含以 Spark SQL 为代表的 OLAP 引擎优化,实时 ETL 系统优化,图计算技术探索与应用。曾就职于 Cisco 负责 Streaming MPP 系统研发,数据仓库架构设计与性能调优;曾在 eBay 负责大数据基础架构的优化工作 。

更多大数据分析的支撑技术的相关分享请访问 QCon 上海 2019 官网。

收藏

评论

微博

用户头像
发表评论

注册/登录 InfoQ 发表评论