Spark 在字节跳动内部扮演着重要角色。在数据仓库领域，Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎，另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据，单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署，因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果，介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。字节跳动数据仓库架构负责人郭俊即将在 QCon 全球软件开发大会（上海站）2019分享《Spark SQL 在字节跳动数据仓库领域的优化实践》

听众受益

了解超大规模 Spark 集群在海量数据场景下的挑战和痛点；
了解字节跳动如何提升 Spark 作业的稳定性；
了解字节跳动如何将离线任务从 MapReduce 平滑迁移至 Spark；
了解字节跳动如何从逻辑计划优化，物理计划优化，以及运行时优化等不同维度优化 Spark SQL 的整体性能。

嘉宾介绍

郭俊，就职于字节跳动（上海）基础架构部，现负责数据仓库架构，包含以 Spark SQL 为代表的 OLAP 引擎优化，实时 ETL 系统优化，图计算技术探索与应用。曾就职于 Cisco 负责 Streaming MPP 系统研发，数据仓库架构设计与性能调优；曾在 eBay 负责大数据基础架构的优化工作。

更多大数据分析的支撑技术的相关分享请访问 QCon 上海 2019 官网。

创作场景

Spark SQL 在字节跳动数据仓库领域的优化实践