写点什么

Databricks 开源 Delta Lake:让数据湖更可靠

  • 2019-05-26
  • 本文字数:367 字

    阅读完需:约 1 分钟

Databricks开源Delta Lake:让数据湖更可靠

Delta Lake 提供了数据版本控制,能够及时获取文件的每个版本,这一特性对于《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)及其他相关的审计请求来说非常有帮助。文件的元数据存储顺序和数据处理过程保持一致,从而支持相同级别的数据处理和特征增强。


Delta Lake 提供了模式执行功能。可以检查数据类型以及字段是否存在,并强制设置字段以确保数据始终保持干净。此外,更改模式不需要 DDL,可以自动应用变更。


Delta Lake 部署在现有的数据湖之上,它与批处理和流式数据均兼容,并可作为一种新的数据源插入到现有的 Spark 作业中。数据以通用的Apache Parquet格式存储。


Delta Lake 和 MLFlow 也兼容,MLFlow 是 Databricks 在去年推出的最新的开源平台。代码可在GitHub上获得。


查看英文原文Databricks Open Sources Delta Lake to Make Data Lakes More Reliable


2019-05-26 08:006143
用户头像

发布了 566 篇内容, 共 410.8 次阅读, 收获喜欢 731 次。

关注

评论

发布
暂无评论
发现更多内容

哈尔滨工业大学鲲鹏昇腾科教创新孵化中心成立

极客天地

区块链Web3项目费用评估方法

北京木奇移动技术有限公司

区块链开发 软件外包公司 RWA开发

YashanDB数据库的索引与搜索性能优化

数据库砖家

哈尔滨二级等保实施重点:安全建设与管理的关键环节

等保测评

嘉为蓝鲸CCI持续集成平台Stage准入:让CI/CD从“自动跑”到“可控跑”,部署更放心

嘉为蓝鲸

DevOps 研发效能 持续集成 CI/CD 持续集成平台

事件管理升级指南:ITSM系统靠自动化与协同让IT运维效率“撑杆跳”

嘉为蓝鲸

ITSM IT服务管理中心 IT服务管理 IT流程管理 ITIL事件管理

数字化工厂及五大核心系统(ERP、PLM、MES、WMS、QMS)

万界星空科技

数字化 ERP mes QMS 制造业工厂

Vibe Coding 从入门到实践

火山引擎开发者社区

AI 火山引擎

MyEMS:让能源管理从 “专业门槛” 走向 “全员参与”

开源能源管理系统

开源 开源能源管理系统

打造可分析的监控报表体系,让洞察更精准高效

嘉为蓝鲸

智能监控 IT运维 数据监控 IT监控 IT运维监控

MyEMS 开源能源管理系统:技术架构驱动的能源管理革新

开源能源管理系统

开源 能源管理系统

快节奏业务增长驱动下的App跨平台高效开发

xuyinyin

CAD中如何快速查找批注?3秒定位,告别手动查找!

在路上

cad cad看图 CAD看图王

一文看懂:企业该如何正确实施ERP?ERP系统实施必要性讲解

优秀

ERP

智能体防御 | 一文了解 3 种系统提示词加固方法

火山引擎开发者社区

智能体 系统提示词

Go面试题从浅入深高频必刷「2025版」

王中阳Go

Go

哪个CAD软件既可以CAD看图又可以绘图?

在路上

cad CAD看图软件 CAD看图王

Agent 架构综述:从 Prompt 到 Context

火山引擎开发者社区

Prompt 大型语言模型LLM

2025年,如何成为不被AI淘汰的技术人?

咕泡科技

人工智能 大模型 咕泡ai 咕泡科技 咕泡大模型

从零开始学MCP(7) | 实战:用 MCP 构建论文分析智能体

测吧(北京)科技有限公司

CST基础教程:如何从SYZ参数提取电容C和电感L --- 双端口

思茂信息

cst电磁仿真 CST软件 CST Studio Suite

五问五答,详解算子级血缘助企业数据管理主动防控与高效协同

Aloudata

数据血缘 数据变更 主动元数据 算子级血缘

破界新生!MyEMS 开源能源管理系统重构智慧能源新范式

开源能源管理系统

开源 开源能源管理系统

DeepSeek-V3.1 上线火山方舟

火山引擎开发者社区

字节跳动 火山引擎 DeepSeek 火山方舟

哈尔滨二级等保办理全流程:从准备到完成的清晰指引

等保测评

嘉为蓝鲸CMeas研发效能洞察平台:研发效能周报按周期自动推送领导邮箱,数据统计零疏漏

嘉为蓝鲸

DevOps 研发效能 研发效能度量 研发效能洞察平台

YashanDB数据库的数据完整性保障机制

数据库砖家

黑龙江等保测评公司选择关键维度:服务能力与适配性

等保测评

区块链RWA系统开发周期

北京木奇移动技术有限公司

区块链开发 软件外包公司 RWA开发

抽象层破绽:Behringer Wing混音器与DigiMixer的技术适配挑战

qife122

系统集成 软件抽象

「48小时极速反馈」阿里云实时计算Flink广招天下英雄

Apache Flink

大数据 flink

Databricks开源Delta Lake:让数据湖更可靠_大数据_Alex Giamas_InfoQ精选文章