写点什么

Databricks 开源 Delta Lake:让数据湖更可靠

  • 2019-05-26
  • 本文字数:367 字

    阅读完需:约 1 分钟

Databricks开源Delta Lake:让数据湖更可靠

Delta Lake 提供了数据版本控制,能够及时获取文件的每个版本,这一特性对于《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)及其他相关的审计请求来说非常有帮助。文件的元数据存储顺序和数据处理过程保持一致,从而支持相同级别的数据处理和特征增强。


Delta Lake 提供了模式执行功能。可以检查数据类型以及字段是否存在,并强制设置字段以确保数据始终保持干净。此外,更改模式不需要 DDL,可以自动应用变更。


Delta Lake 部署在现有的数据湖之上,它与批处理和流式数据均兼容,并可作为一种新的数据源插入到现有的 Spark 作业中。数据以通用的Apache Parquet格式存储。


Delta Lake 和 MLFlow 也兼容,MLFlow 是 Databricks 在去年推出的最新的开源平台。代码可在GitHub上获得。


查看英文原文Databricks Open Sources Delta Lake to Make Data Lakes More Reliable


2019-05-26 08:005988
用户头像

发布了 349 篇内容, 共 250.0 次阅读, 收获喜欢 632 次。

关注

评论

发布
暂无评论
发现更多内容

特斯拉自建ERP的背后

明道云

Soul 网关源码阅读(二)代码初步运行

Java 源码阅读 网关

区块链科普系列:区块链是什么?

CECBC

区块链

初识ClickHouse——安装与入门

Simon

Clickhouse

iOS性能优化 — 五、App启动优化

iOSer

ios 性能优化 性能分析

Soul 网关源码阅读(一) 概览

Java 源码阅读 网关

自动量化搬砖套利交易机器人系统软件APP开发

系统开发

Volcano架构设计与原理介绍

华为云原生团队

大数据 AI 云原生 高性能 批量计算

用AI「驯服」人类幼崽,手头有娃的可以试试

博文视点Broadview

人工智能 联邦学习 强化学习 集成学习 技术宅

在数据分析、挖掘方面,有哪些ETL工具值得推荐?

敏捷调度TASKCTL

大数据 kettle 海豚调度 批量任务 ETL

一文解析DDD中台和微服务设计

欧创新

中台 微服务 领域驱动设计 DDD

区块链十年与传统金融的变化

CECBC

区块链 金融

矿机挖矿APP系统模式开发平台

v16629866266

为什么我认为 Deno 是一个迈向错误方向的 JavaScript 运行时?

hylerrix

typescript rust nodejs deno V8

敏捷里为何倡导固定迭代周期?

万事ONES

敏捷开发 研发管理 迭代

从CPU到XPU进化,英特尔对业界放了什么大招?

E科讯

面试阿里Java岗,技术总监真正关心的核心能力是什么?

Java架构追梦

Java 编程 架构

当音乐学博士搞起编程...

程序猿DD

Spring Frame

一文带你探究Sentinel的独特初始化

华为云开发者联盟

redis sentinel 框架

不同公司产品经理岗位对比

LouisN

“反垄断”来袭,对产业区块链有什么启发

CECBC

市场垄断

「产品经理训练营」第一章作业

Sòrγy_じò ぴé

产品经理训练营

生产者与消费者模式,数组阻塞队列(ArrayBlockingQueue)

李尚智

Java 学习 架构 并发编程

DevSecOps安全检查清单

啸天

安全 DevSecOps 应用安全

架构师训练营W13作业

Geek_f06ede

物流快递公司APP架构设计

jorden wang

面试官:你真的了解Redis分布式锁吗?

鄙人薛某

redis 分布式锁 线程安全 RedLock

架构师训练营第十三周作业

李日盛

PageRank

来不及解释!Linux常用命令大全,先收藏再说

华为云开发者联盟

Linux 编程 命令行 命令

『CDN』让你的网站访问起来更加柔顺丝滑

古时的风筝

CDN

即构小程序直播组件集成教程

ZEGO即构

Databricks开源Delta Lake:让数据湖更可靠_大数据_Alex Giamas_InfoQ精选文章