2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Databricks 开源 Delta Lake:让数据湖更可靠

  • 2019-05-26
  • 本文字数:367 字

    阅读完需:约 1 分钟

Databricks开源Delta Lake:让数据湖更可靠

Delta Lake 提供了数据版本控制,能够及时获取文件的每个版本,这一特性对于《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)及其他相关的审计请求来说非常有帮助。文件的元数据存储顺序和数据处理过程保持一致,从而支持相同级别的数据处理和特征增强。


Delta Lake 提供了模式执行功能。可以检查数据类型以及字段是否存在,并强制设置字段以确保数据始终保持干净。此外,更改模式不需要 DDL,可以自动应用变更。


Delta Lake 部署在现有的数据湖之上,它与批处理和流式数据均兼容,并可作为一种新的数据源插入到现有的 Spark 作业中。数据以通用的Apache Parquet格式存储。


Delta Lake 和 MLFlow 也兼容,MLFlow 是 Databricks 在去年推出的最新的开源平台。代码可在GitHub上获得。


查看英文原文Databricks Open Sources Delta Lake to Make Data Lakes More Reliable


2019-05-26 08:006107
用户头像

发布了 553 篇内容, 共 400.1 次阅读, 收获喜欢 726 次。

关注

评论

发布
暂无评论
发现更多内容

证券开源领航者!国金证券通过中国信通院可信开源治理“先进级”评估

新消费日报

第19期 | GPTSecurity周报

云起无垠

EasyDL平台的强大开发力量

百度开发者中心

大模型 #人工智能

星环科技分布式向量数据库Transwarp Hippo正式发布,拓展大语言模型时间和空间维度

星环科技

微服务之负载均衡使用场景

互联网工科生

负载均衡 微服务

“敏捷教练进阶课程”12月2-3日 · A-CSM认证在线周末班【分时段模块化教学】CST导师亲授

ShineScrum

CAEE2023 | 造物云×华为云共建电子电路智慧云工厂,引领产业创新发展浪潮

极客天地

史上最短苹果发布会;三星、LG、高通联手进军 XR 市场丨 RTE 开发者日报 Vol.74

声网

大模型训练中的AI合成数据应用

百度开发者中心

大模型 人工智能「 LLM

华为云GaussDB城市沙龙活动走进安徽,助力金融行业数字化转型

华为云开发者联盟

数据库 后端 华为云 华为云GaussDB 华为云开发者联盟

KaiwuDB 联合信通院数据库应用创新实验室召开数据库技术研讨沙龙

KaiwuDB

KaiwuDB 获山东省工信厅“信息化应用创新优秀解决方案”奖

KaiwuDB

如何构建适合自己的DevOps软件测试改进方案

DevOps和数字孪生

DevOps 软件测试 仿真建模

Databend 开源周报第 117 期

Databend

酷克数据出席永洪科技用户大会 携手驱动商业智能升级

酷克数据HashData

1.从零开始学Windows批处理编程系列之基础介绍

全栈工程师修炼指南

编程 windows 批处理 运维学习之路

超2000个大模型应用,支持文心4.0!AI Studio星河大模型社区升级上新

飞桨PaddlePaddle

飞桨 AI Studio 星河社区 文心大模型4.0

用友BIP数智干部管理——数管干部 人才强企

用友BIP

数智干部管理

行云创新加入深圳市人工智能行业协会

行云创新

AI编程 人工智能协会 行云创新加入人工智能协会 云原生+AI 云端IDE+大模型

HDFS架构介绍

数新网络官方账号

大数据 hdfs 架构-

聊聊 Rust 变量,你学会了吗?

树上有只程序猿

rust

权重修改与预训练模型的应用

百度开发者中心

人工智能 大模型

Hazelcast IMDG 概览

数新网络官方账号

数据库 #数据库

如何选择最适合你的香港服务器服务?五大优势你不可不知

一只扑棱蛾子

香港服务器

《数据安全与流通:技术、架构与实践》新书发布

星环科技

API商品数据接口调用实战

Noah

ElasticSearch深度解析入门篇:高效搜索解决方案的介绍与实战案例讲解,带你避坑

汀丶人工智能

Elastic Search 搜索系统

用 Milvus 和 NVIDIA Merlin 搭建高效推荐系统

Zilliz

nvidia Milvus Zilliz 向量数据库

Databricks开源Delta Lake:让数据湖更可靠_大数据_Alex Giamas_InfoQ精选文章