写点什么

Databricks 开源 Delta Lake:让数据湖更可靠

  • 2019-05-26
  • 本文字数:367 字

    阅读完需:约 1 分钟

Databricks开源Delta Lake:让数据湖更可靠

Delta Lake 提供了数据版本控制,能够及时获取文件的每个版本,这一特性对于《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)及其他相关的审计请求来说非常有帮助。文件的元数据存储顺序和数据处理过程保持一致,从而支持相同级别的数据处理和特征增强。


Delta Lake 提供了模式执行功能。可以检查数据类型以及字段是否存在,并强制设置字段以确保数据始终保持干净。此外,更改模式不需要 DDL,可以自动应用变更。


Delta Lake 部署在现有的数据湖之上,它与批处理和流式数据均兼容,并可作为一种新的数据源插入到现有的 Spark 作业中。数据以通用的Apache Parquet格式存储。


Delta Lake 和 MLFlow 也兼容,MLFlow 是 Databricks 在去年推出的最新的开源平台。代码可在GitHub上获得。


查看英文原文Databricks Open Sources Delta Lake to Make Data Lakes More Reliable


2019-05-26 08:006147
用户头像

发布了 576 篇内容, 共 416.0 次阅读, 收获喜欢 733 次。

关注

评论

发布
暂无评论
发现更多内容

架构师训练营 - 第 3 周课后作业

树森

极客大学-架构师训练营第一期 - 第四周作业

Black Eyed Peter

极客大学架构师训练营

为了省钱,我用1天时间把PHP学完,装进DDD领域驱动设计里!

小傅哥

php 设计模式 小傅哥 架构师

架构师训练营第四周作业

文智

极客大学架构师训练营

【架构师训练营第 1 期 04 周】 学习总结

Bear

极客大学架构师训练营

架构一期第四周作业

Airs

架构师训练营第 1 期 第 4 周作业

李循律

极客大学架构师训练营

低代码开发平台,来自“未来”的软件开发方案

Marilyn

敏捷开发

架构1期week04

FG佳

极客大学架构师训练营

钱被扣走了,但是订单却未成功!支付掉单异常最全解决方案

楼下小黑哥

支付宝 微信支付 支付系统 支付

架构师训练营第四周课程笔记及心得

Airs

MySQL 建表为啥还设置个自增 id ?用流水号当主键不正好么?

程序员小航

Java MySQL 开发 工作笔记 流水号

SpringBoot系列(3)- 快速开发业务代码

引花眠

springboot

【架构师训练营第 1 期 04 周】 作业

Bear

极客大学架构师训练营

第 4 周 作业

Pyr0man1ac

游戏夜读 | 怎么做联网五子棋?

game1night

架构师训练营第四周学习总结

文智

极客大学架构师训练营

java安全编码指南之:输入注入injection

程序那些事

Java java安全编码 java安全 java安全编码指南

【架构师训练营】第三周作业:代码重构

MindController

架构一期二班-吴水金-第三课作业

吴水金

架构师训练营 - 第 4 周学习总结(1 期)

阿甘

XJR企业级软件快速开发平台规范

Marilyn

程序员 敏捷开发 软件设计

架构1期week04总结

FG佳

极客大学架构师训练营

第四周 总结

Pyr0man1ac

一个开始

Nydia

MySQL一个面试问题的思考

薛腾

MySQL

架构师训练营 - 第 4 周课后作业(1 期)

阿甘

Kubeless 快速入门 | 玩转 Kubeless

donghui

Serverless kubeless

ARTS打卡 第19周

引花眠

微服务 ARTS 打卡计划 springboot

架构一期二班-吴水金-第三课总结

吴水金

OpenFaas 获得 VMworld 2020 年度最佳 Startup Spotlight 大奖

donghui

Serverless OpenFaas

Databricks开源Delta Lake:让数据湖更可靠_大数据_Alex Giamas_InfoQ精选文章