开源软件 Delta Lake:利用 Spark 让数据湖更可靠

阅读数:1337 2019 年 8 月 26 日 15:36

开源软件Delta Lake:利用Spark让数据湖更可靠

Delta Lake( Delta.io )是一个给数据湖提供可靠性的开源存储层软件。Delta Lake 提供了 ACID 事务性,可扩展的元数据处理,以及统一了流处理和批处理。它可以运行在现有的数据湖,并且完全兼容 Apache Spark APIs [Spark 2.4.3+]。Databricks Engineering Manager 李潇即将在 QCon 全球软件开发大会(上海站)2019 分享《Delta Lake:Open Source Reliability for Data Lake with Apache Spark》

听众受益

  • 了解 Delta Lake 可以帮助解决哪些数据质量的问题;
  • 如何将你现有的应用转移到 Delta Lake;
  • Delta Lake 的事务协议是如何实现的;
  • Delta Lake 的未来项目规划;
  • Delta Lake 在 Spark 3.0 的使用。

嘉宾介绍

李潇现就职于 Databricks,管理一跨国团队,专注于 Apache Spark 和 Databricks Runtime 的开发和建设。他是 Apache Spark 项目管理委员会成员。本科毕业于南京理工大学,后在佛罗里达大学(University of Florida)获计算机博士学位, 曾就职于 IBM,获发明大师称号(Master Inventor),在数据处理领域发表专利十余篇。(Github: gatorsmile)

更多大数据分析支撑技术相关内容请关注 QCon 上海 2019。

收藏

评论

微博

用户头像
发表评论

注册/登录 InfoQ 发表评论