写点什么

官宣!开源 Delta Lake 正式加入 Linux 基金会,共同打造数据湖开放标准

  • 2019-10-16
  • 本文字数:1360 字

    阅读完需:约 4 分钟

官宣!开源Delta Lake正式加入Linux基金会,共同打造数据湖开放标准

今天,在荷兰阿姆斯特丹举行的 Spark+AI 欧洲峰会上,DataBricks 和Linux基金会联合宣布,开源项目Delta Lake正式成为 Linux 基金会的托管项目。



Delta Lake 由 Databricks 在今年年初开源,该项目旨在与社区共同打造一个开放标准,以管理数据湖中的大量数据,并不断提高数据湖的可靠性、质量和性能(关于 Delta Lake 的更多技术特性可以参考 InfoQ 早前的报道《Databricks 开源存储层 Delta Lake,欲取代传统数据湖》)。成为 Linux 基金会项目后,Delta Lake 原来采用的 Apache 2.0 开源许可将保持不变。目前 Delta Lake 已经被成千上万的组织采用,包括 Intel、阿里巴巴、Booz Allen Hamilton 都是其开源生态一员。为了进一步推动 Delta Lake 开原生态的发展,让更多开发者和企业采用 Delta Lake 并参与贡献项目代码,Databricks 决定让 Delta Lake 成为 Linux 基金会的托管项目并使用开放式的治理模式。


如今,每个公司都希望通过数据科学、机器学习和分析等手段从数据中获得更多价值,但由于数据湖中数据可靠性较差,从数据中获取价值的难度极大。Delta Lake 通过为 Apache Spark 和其他大数据引擎提供可伸缩的 ACID 事务,让用户可以基于 HDFS 和云存储构建可靠的数据湖。自 2017 年 10 月推出以来,Delta Lake 已被四千多家组织采用,每月处理超过 2 exabytes 的数据。


“将 Delta Lake 引入 Linux 基金会这样的中立组织,将有助于开源社区更好地基于该项目开发解决大数据(本地和云端)存储和处理问题的技术,”Linux 基金会战略计划副总裁 Michael Dolan 说,“ Linux 基金会致力于帮助开源社区采用开放治理模式来实现广泛的行业贡献和共识建立,这将有助于改善当前数据存储和可靠性相关技术。”


Databricks 的联合创始人也是开源项目 Apache Spark 的创始成员,如今 Spark 早已成为大规模数据处理的事实标准。Databricks 的首席执行官兼联合创始人 Ali Ghodsi 对 Delta Lake 项目再次经历这一旅程感到兴奋。“我们的团队一直致力于创建开源项目并为之做出贡献,因为我们知道这是最快、最好的创新方式。为了解决不同组织在数据方面的挑战,我们希望保证 Delta Lake 项目真正彻底地开源。借助 Linux 基金会社区的力量和贡献,我们相信 Delta Lake 很快就会成为数据湖中数据存储的标准。


尽管 Delta Lake 最初是为了与 Apache Spark 配合使用而设计的,但如今 Delta Lake 已经构建了一个更加开放且蓬勃发展的社区,且增加了对其他开源数据系统的支持。


阿里巴巴大数据/人工智能副总裁贾扬清表示:


“作为主要的云计算提供商,阿里巴巴一直是各种开源项目(尤其在大数据和 AI 领域)的领导者、贡献者、使用者和支持者。我们一直在与 Databricks 合作开发 Delta Lake 的原生 Hive 连接器,我们非常高兴看到该项目加入 Linux 基金会。我们将继续推动 Delta Lake 开源社区的发展并为之做出贡献。”


英特尔架构、图形和软件副总裁兼机器学习性能总经理李伟(Wei Li)表示:


“英特尔与 Databricks 已经合作了非常长时间,我们共同致力于通过创新的数据分析和 AI 解决方案推动 Apache Spark 技术的发展,并帮助企业做好准备。Databricks 贡献给 Linux 基金会的 Delta Lake 项目是一项相当重要的开源存储技术,可以帮助采用者提高数据湖的可靠性。我们期待加入 Delta Lake 项目,并继续与 Databricks 和 Apache 社区进行合作。”


2019-10-16 18:485672
用户头像
蔡芳芳 InfoQ 总编辑

发布了 819 篇内容, 共 618.7 次阅读, 收获喜欢 2823 次。

关注

评论 1 条评论

发布
用户头像
关于为什么Delta Lake没有选择加入Apache基金会,我们也专门询问了Databricks的同学,得到的答复是“近期Apache基金会政治氛围有点浓厚”,并且本质上Linux基金会的Cloud属性更强。

It’s interesting to see Databricks choose the Linux Foundation for this project, given that its roots are in the Apache Foundation. “We’re super excited to partner with them,” Ghodsi said about why the company chose the Linux Foundation. “They run the biggest projects on the planet, including the Linux project but also a lot of cloud projects. The cloud-native stuff is all in the Linux Foundation.”
展开
2019-10-17 10:34
回复
没有更多了
发现更多内容

如何用 30s 讲清楚什么是跳表

飞天小牛肉

redis 面试 社招 校招 秋招

喜讯+1!袋鼠云数栈技术团队获“2022年度优秀开源技术团队”

袋鼠云数栈

开源

“零容忍”监管,金融机构如何应对数据泄露风险?

极盾科技

数据安全

火山引擎DataTester:无需研发人力,即刻开启企业A/B实验

字节跳动数据平台

A/B测试

Tapdata 携手阿里云,实现数据平滑上云以及毫秒级在线查询和检索能力

云布道师

阿里云

chatGPT实战之「基于你的数据库,为你智能生成SQL」

非喵鱼

Java MySQL sql openai ChatGPT

Kubernetes 跨集群流量调度实战

Flomesh

服务治理 Kubernetes 集群 流量管理

熹乐科技范维肖CC:基于开源 YoMo 框架构建“全球同服”的 Realtime Metaverse Application

声网

框架 #开源

人工智能顶会AAAI 2023放榜!网易伏羲7篇论文入选

网易伏羲

人工智能

Flutter for Web 首次首屏优化——JS 分片优化

阿里巴巴终端技术

flutter 前端 Web 客户端

演讲实录|姚延栋:终止“试点炼狱”,智能汽车时代数字化转型与实践

YMatrix 超融合数据库

车联网 海量数据 超融合数据库 智能网联 YMatrix

下一代架构?从组装式企业到组装式应用

华为云开发者联盟

云计算 后端 数字化 华为云 12 月 PK 榜

【服务故障问题排查心得】「内存诊断系列」Docker容器经常被kill掉,k8s中该节点的pod也被驱赶,怎么分析?

码界西柚

Docker Linux 12 月 PK 榜 容器内存问题

2023年ha软件采购就选Skybility HA!6大优势看这里!

行云管家

高可用 ha 双机热备

省会城市昆明分布式光伏项目落地 引领低碳化转型实践

极客天地

瓴羊Quick BI数据填报组件,实现智能化管理和高效挖掘利用

夏日星河

ClickHouse 挺快,esProc SPL 更快

王磊

低碳正在成为春城的新名片

极客天地

如何在滑至页面底端添加提示?

Towify

微信小程序 无代码

IAA品类洞察:扫描品类加快变现,如何抓住增长机遇?

易观分析

广告业 IAA

如何使用 Towify 在小程序中实现勾选用户协议后登录?

Towify

微信小程序 无代码

强化学习调参技巧二:DDPG、TD3、SAC算法为例:

汀丶人工智能

强化学习 深度强化学习 12月日更 12月月更

选择合适的BI工具,解决中国式报表难题

对不起该用户已成仙‖

广告倒排服务极致优化

百度Geek说

架构 数据结构 后端 12 月 PK 榜

浅析静态应用安全测试

华为云开发者联盟

测试 开发 华为云 12 月 PK 榜

VoneBaaS与飞腾CPU完成产品兼容性互认证

旺链科技

区块链 产业区块链 VoneBaaS 12 月 PK 榜

从数据治理到数据应用,制造业企业如何突破数字化转型困境丨行业方案

袋鼠云数栈

数字化转型

2023年中国企业数字化技术应用十大趋势

易观分析

企业 数字化

【合作案例】科协基地预约小程序 | 闵行区科普资源地图

天天预约

了不起的程序员们,瞧,你的 2023 年度惊喜终于来了!

图灵社区

程序员

两步开启研发团队专属ChatOps|极狐GitLab ChatOps 的设计与实践

极狐GitLab

团队管理 DevOps ChatOps 极狐GitLab ChatGPT

官宣!开源Delta Lake正式加入Linux基金会,共同打造数据湖开放标准_大数据_蔡芳芳_InfoQ精选文章