写点什么

Databricks 开源 Delta Lake:让数据湖更可靠

  • 2019-05-26
  • 本文字数:367 字

    阅读完需:约 1 分钟

Databricks开源Delta Lake:让数据湖更可靠

Delta Lake 提供了数据版本控制,能够及时获取文件的每个版本,这一特性对于《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)及其他相关的审计请求来说非常有帮助。文件的元数据存储顺序和数据处理过程保持一致,从而支持相同级别的数据处理和特征增强。


Delta Lake 提供了模式执行功能。可以检查数据类型以及字段是否存在,并强制设置字段以确保数据始终保持干净。此外,更改模式不需要 DDL,可以自动应用变更。


Delta Lake 部署在现有的数据湖之上,它与批处理和流式数据均兼容,并可作为一种新的数据源插入到现有的 Spark 作业中。数据以通用的Apache Parquet格式存储。


Delta Lake 和 MLFlow 也兼容,MLFlow 是 Databricks 在去年推出的最新的开源平台。代码可在GitHub上获得。


查看英文原文Databricks Open Sources Delta Lake to Make Data Lakes More Reliable


2019-05-26 08:006091
用户头像

发布了 542 篇内容, 共 388.7 次阅读, 收获喜欢 721 次。

关注

评论

发布
暂无评论
发现更多内容

【第11周】安全稳定

云龙

架构师训练营第一期第十一周总结

Leo乐

极客大学架构师训练营

十一周总结

orchid9

软件开发人员的软实力之一:精细度

boshi

职业 随笔

性能压测的时候,随着并发压力的增加,系统响应时间和吞吐量如何变化

幸福小子

性能分析

架构师训练营 - 第十一周 - 作业一

行者

第七周学习总结

晴空万里

架构师 01 期,第十一周课后作业

子文

安全稳定

wing

极客大学架构师训练营

架构师训练营 3 期 第二周作业

ihiming

架构师训练营 1 期第 11 周:安全稳定 - 总结

piercebn

极客大学架构师训练营

架构师训练营第十一周作业

月殇

极客大学架构师训练营

架构师训练营 2 期 - 第六周总结

Geek_no_one

极客大学架构师训练营

架构师训练营 2 期 - 第 7 周命题作业

Geek_no_one

极客大学架构师训练营

架構師訓練營 week11 作業

ilake

架构师训练营第一期第十一周作业

Leo乐

极客大学架构师训练营

极客时间架构 1 期:第 11 周 安全稳定 - 学习总结

Null

冰河开源了全网首个完全开源的分布式全局有序序列号(分布式ID)框架!

冰河

分布式架构 雪花算法 分布式ID 全局序列号 全局唯一ID

极客时间架构 1 期:第 11 周 安全稳定 - 命题作业

Null

性能优化总结

幸福小子

性能优化

你真的理解什么是创新么?|技术人应知的创新思维模型 (1)

Alan

创新 思维模型 技术人应知的创新思维模型 28天写作

架构词典:逻辑

lidaobing

架构 逻辑

架構師訓練營 week11 總結

ilake

架构2期-第七周作业(1)

浮生一梦

极客大学架构师训练营 第七周 2组

【第十一周】课后作业

云龙

第二周学习总结

简简单单

架构师训练营第十一周总结

月殇

极客大学架构师训练营

架构师训练营 2 期 - 第七周总结

Geek_no_one

极客大学架构师训练营

架构师训练营1期 -- 第十一周作业

曾彪彪

极客大学架构师训练营

Week7总结

lggl

总结

软件设计的设计模式

简简单单

Databricks开源Delta Lake:让数据湖更可靠_大数据_Alex Giamas_InfoQ精选文章