敏态场景下,自研数据库如何做好技术演进和落地调优?点击预约直播 了解详情
写点什么

Databricks 开源 Delta Lake:让数据湖更可靠

  • 2019 年 5 月 26 日
  • 本文字数:367 字

    阅读完需:约 1 分钟

Databricks开源Delta Lake:让数据湖更可靠

Delta Lake 提供了数据版本控制,能够及时获取文件的每个版本,这一特性对于《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)及其他相关的审计请求来说非常有帮助。文件的元数据存储顺序和数据处理过程保持一致,从而支持相同级别的数据处理和特征增强。


Delta Lake 提供了模式执行功能。可以检查数据类型以及字段是否存在,并强制设置字段以确保数据始终保持干净。此外,更改模式不需要 DDL,可以自动应用变更。


Delta Lake 部署在现有的数据湖之上,它与批处理和流式数据均兼容,并可作为一种新的数据源插入到现有的 Spark 作业中。数据以通用的Apache Parquet格式存储。


Delta Lake 和 MLFlow 也兼容,MLFlow 是 Databricks 在去年推出的最新的开源平台。代码可在GitHub上获得。


查看英文原文Databricks Open Sources Delta Lake to Make Data Lakes More Reliable


2019 年 5 月 26 日 08:005440
用户头像

发布了 179 篇内容, 共 80.4 次阅读, 收获喜欢 480 次。

关注

评论

发布
暂无评论
发现更多内容

设计千万级学生管理系统的考试试卷存储方案

哈喽

「架构实战营」

目前国产电脑硬件的现状是怎样的?

InfoQ IT百科

操作系统负责管理计算机系统的什么?

InfoQ IT百科

数据中心碳中和之路,新华三如何全栈赋能?

脑极体

深开鸿与亿晟科技签署合作协议,携手构建商显行业新生态

科技汇

模块四作业

HZ

架构实战营 #架构实战营

如何彻底删除电脑上的文件?

InfoQ IT百科

电脑硬件都有哪些?

InfoQ IT百科

2022年,5G芯片会有哪些值得期待的发展趋势?

InfoQ IT百科

手机运行内存应该怎么选?

InfoQ IT百科

APP应该关注哪些数据指标?

InfoQ IT百科

Java的wait()、notify()学习三部曲之一:JVM源码分析

程序员欣宸

Java JVM 4月月更

秒云助力中电科32所发布“基于拟态应用集成框架的SaaS云管理平台解决方案”

秒云

内生安全 拟态应用集成框架 网络空间内生安全大会

电脑上怎么快速切换显示不同的软件界面

InfoQ IT百科

我国有哪些完全自研的电脑硬件?

InfoQ IT百科

2022年,网传苹果即将发布的新机型iPhone 14 Pro和iPhone 14 Pro Max将会是全新屏幕造型,不再是刘海屏,你对新屏幕造型的iPhone 14期待吗?

InfoQ IT百科

为什么智能手机传感器市场一直是索尼占主导

InfoQ IT百科

2022年中国数字科技专题分析

易观分析

数字技术 数字科技

时序数据库市场漫谈

CnosDB

IoT 时序数据库 开源社区 CnosDB infra

Go 学习笔记——Switch(我不是游戏机)

为自己带盐

Go 学习笔记 4月月更

科创人·派拉软件CEO谭翔:零信任本质是数字安全,To B也要深研用户心智

科创人

你知道你的手机上有多少传感器吗?

InfoQ IT百科

优麒麟 22.04 LTS 版本正式发布 | UKUI 3.1开启全新体验!

优麒麟

Linux 开源 操作系统 优麒麟 22.04

电脑硬件中最重要的部分是什么?

InfoQ IT百科

rm格式的文件怎么打开?

InfoQ IT百科

如何通过云效Codeup完成代码合并 | 云效

阿里云云效

云计算 阿里云 代码管理 Codeup 代码合并

微日记:那些看起来并不起眼的细节体验

龙国富

体验设计

Databricks开源Delta Lake:让数据湖更可靠_大数据_Alex Giamas_InfoQ精选文章