写点什么

Databricks 开源 Delta Lake:让数据湖更可靠

  • 2019-05-26
  • 本文字数:367 字

    阅读完需:约 1 分钟

Databricks开源Delta Lake:让数据湖更可靠

Delta Lake 提供了数据版本控制,能够及时获取文件的每个版本,这一特性对于《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)及其他相关的审计请求来说非常有帮助。文件的元数据存储顺序和数据处理过程保持一致,从而支持相同级别的数据处理和特征增强。


Delta Lake 提供了模式执行功能。可以检查数据类型以及字段是否存在,并强制设置字段以确保数据始终保持干净。此外,更改模式不需要 DDL,可以自动应用变更。


Delta Lake 部署在现有的数据湖之上,它与批处理和流式数据均兼容,并可作为一种新的数据源插入到现有的 Spark 作业中。数据以通用的Apache Parquet格式存储。


Delta Lake 和 MLFlow 也兼容,MLFlow 是 Databricks 在去年推出的最新的开源平台。代码可在GitHub上获得。


查看英文原文Databricks Open Sources Delta Lake to Make Data Lakes More Reliable


2019-05-26 08:006018
用户头像

发布了 421 篇内容, 共 289.9 次阅读, 收获喜欢 664 次。

关注

评论

发布
暂无评论
发现更多内容

vivo蓝心大模型登陆火山方舟,一站式方案实现智能普惠

新消费日报

公司里的“卷王”,是主动选择还是迫于无奈?

伤感汤姆布利柏

中国科学家颜宁荣膺2024欧莱雅-联合国教科文组织“世界杰出女科学家成就奖”

财见

百度百舸 AIAK-LLM 的大模型训练和推理加速实践

Baidu AICLOUD

训练 推理 大模型

数据库索引回表困难?揭秘PolarDB存储引擎优化技术

阿里云瑶池数据库

数据库 阿里云 polarDB 分布式,

MyBatis如何通过拦截器修改SQL

源字节1号

开源 软件开发 前端开发 后端开发 小程序开发

一文读懂 Pencil 积分,打开 Pencils Protocol 生态权益大门

西柚子

2024/25 奥特斯再度迈入增长之路

财见

企业级小程序技术平台与中间件提供商凡泰极客完成近亿元B轮融资

FN0

小程序 小程序化

软件测试学习笔记丨MyBatis 多条件查询和模糊查询

测试人

软件测试

结合多模态 AI 谷歌展示 AR 眼镜原型机;Meta 被曝开发带摄像头的 AI 耳机丨 RTE 开发者日报 Vol.204

声网

8000-12000奖金等你拿,OpenTiny 开源之夏10大导师齐上阵,带你立刻get 项目详情!!!

OpenTiny社区

Vue 前端 低代码 组件库 OpenTiny

Python最容易犯的五个错误,你中了几个?

我再BUG界嘎嘎乱杀

Python 编程语言 开发语言

Python在物联网中的应用

技术冰糖葫芦

宝尊将于2024年5月28日发布2024年一季度未经审计财务业绩

财见

金蝶发布AI管理助手 重构苍穹AI平台

人称T客

不容错过的邀请:《哈利·波特》全系列中英文版本上线华为阅读

最新动态

MySQL 给用户添加 ALTER VIEW 的权限

华为云开发者联盟

MySQL 数据库 华为云 华为云开发者联盟 企业号2024年5月PK榜

什么是ARP攻击,怎么做好主机安全,受到ARP攻击有哪些解决方案

德迅云安全杨德俊

奖金+1 万,OpenTenBase 开源核心贡献挑战赛,KB 专家助力其跑在 K8s 上

小猿姐

开源 Kubernetes

Altair 宣布收购 Research in Flight,为空气动力学分析开辟新途径

财见

一文读懂Pencils Protocol Valut的收益叙事:一鱼多吃

西柚子

万界星空科技电线电缆行业生产管理智能化MES

万界星空科技

mes 万界星空科技 电线电缆行业 电线电缆mes

一键自动化博客发布工具,用过的人都说好(51cto篇)

程序那些事

工具 自动发布

Databricks开源Delta Lake:让数据湖更可靠_大数据_Alex Giamas_InfoQ精选文章