写点什么

官宣!开源 Delta Lake 正式加入 Linux 基金会,共同打造数据湖开放标准

  • 2019-10-16
  • 本文字数:1360 字

    阅读完需:约 4 分钟

官宣!开源Delta Lake正式加入Linux基金会,共同打造数据湖开放标准

今天,在荷兰阿姆斯特丹举行的 Spark+AI 欧洲峰会上,DataBricks 和Linux基金会联合宣布,开源项目Delta Lake正式成为 Linux 基金会的托管项目。



Delta Lake 由 Databricks 在今年年初开源,该项目旨在与社区共同打造一个开放标准,以管理数据湖中的大量数据,并不断提高数据湖的可靠性、质量和性能(关于 Delta Lake 的更多技术特性可以参考 InfoQ 早前的报道《Databricks 开源存储层 Delta Lake,欲取代传统数据湖》)。成为 Linux 基金会项目后,Delta Lake 原来采用的 Apache 2.0 开源许可将保持不变。目前 Delta Lake 已经被成千上万的组织采用,包括 Intel、阿里巴巴、Booz Allen Hamilton 都是其开源生态一员。为了进一步推动 Delta Lake 开原生态的发展,让更多开发者和企业采用 Delta Lake 并参与贡献项目代码,Databricks 决定让 Delta Lake 成为 Linux 基金会的托管项目并使用开放式的治理模式。


如今,每个公司都希望通过数据科学、机器学习和分析等手段从数据中获得更多价值,但由于数据湖中数据可靠性较差,从数据中获取价值的难度极大。Delta Lake 通过为 Apache Spark 和其他大数据引擎提供可伸缩的 ACID 事务,让用户可以基于 HDFS 和云存储构建可靠的数据湖。自 2017 年 10 月推出以来,Delta Lake 已被四千多家组织采用,每月处理超过 2 exabytes 的数据。


“将 Delta Lake 引入 Linux 基金会这样的中立组织,将有助于开源社区更好地基于该项目开发解决大数据(本地和云端)存储和处理问题的技术,”Linux 基金会战略计划副总裁 Michael Dolan 说,“ Linux 基金会致力于帮助开源社区采用开放治理模式来实现广泛的行业贡献和共识建立,这将有助于改善当前数据存储和可靠性相关技术。”


Databricks 的联合创始人也是开源项目 Apache Spark 的创始成员,如今 Spark 早已成为大规模数据处理的事实标准。Databricks 的首席执行官兼联合创始人 Ali Ghodsi 对 Delta Lake 项目再次经历这一旅程感到兴奋。“我们的团队一直致力于创建开源项目并为之做出贡献,因为我们知道这是最快、最好的创新方式。为了解决不同组织在数据方面的挑战,我们希望保证 Delta Lake 项目真正彻底地开源。借助 Linux 基金会社区的力量和贡献,我们相信 Delta Lake 很快就会成为数据湖中数据存储的标准。


尽管 Delta Lake 最初是为了与 Apache Spark 配合使用而设计的,但如今 Delta Lake 已经构建了一个更加开放且蓬勃发展的社区,且增加了对其他开源数据系统的支持。


阿里巴巴大数据/人工智能副总裁贾扬清表示:


“作为主要的云计算提供商,阿里巴巴一直是各种开源项目(尤其在大数据和 AI 领域)的领导者、贡献者、使用者和支持者。我们一直在与 Databricks 合作开发 Delta Lake 的原生 Hive 连接器,我们非常高兴看到该项目加入 Linux 基金会。我们将继续推动 Delta Lake 开源社区的发展并为之做出贡献。”


英特尔架构、图形和软件副总裁兼机器学习性能总经理李伟(Wei Li)表示:


“英特尔与 Databricks 已经合作了非常长时间,我们共同致力于通过创新的数据分析和 AI 解决方案推动 Apache Spark 技术的发展,并帮助企业做好准备。Databricks 贡献给 Linux 基金会的 Delta Lake 项目是一项相当重要的开源存储技术,可以帮助采用者提高数据湖的可靠性。我们期待加入 Delta Lake 项目,并继续与 Databricks 和 Apache 社区进行合作。”


2019-10-16 18:485452
用户头像
蔡芳芳 InfoQ主编

发布了 804 篇内容, 共 586.8 次阅读, 收获喜欢 2804 次。

关注

评论 1 条评论

发布
用户头像
关于为什么Delta Lake没有选择加入Apache基金会,我们也专门询问了Databricks的同学,得到的答复是“近期Apache基金会政治氛围有点浓厚”,并且本质上Linux基金会的Cloud属性更强。

It’s interesting to see Databricks choose the Linux Foundation for this project, given that its roots are in the Apache Foundation. “We’re super excited to partner with them,” Ghodsi said about why the company chose the Linux Foundation. “They run the biggest projects on the planet, including the Linux project but also a lot of cloud projects. The cloud-native stuff is all in the Linux Foundation.”
展开
2019-10-17 10:34
回复
没有更多了
发现更多内容

Linux 服务器开发学习路线总结(配图 c/c++ )后台开发、Golang后台开发、后端技术栈

Linux服务器开发

Linux 后台开发 后端 Linux服务器 Go 语言

基于 GraphQL 的信息聚合网关的实现与展望

QiLab

高并发系统设计 graphql

前嗅教你大数据:常见的网站反爬策略与解决方案

前嗅大数据

大数据 数据采集 代理IP 网站反爬 反爬策略

感恩,改变世界的开发者们!

京东科技开发者

开发者 程序人生

LeetCode题解:17. 电话号码的字母组合,队列,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

继linux命令之后,我又给你们整理了网络命令归纳,快给我来收藏

北游学Java

Linux 网络协议 网络 网络层

微前端架构初探

徐小夕

Java 大前端

GitHub 标星 1.3k+,一款超赞的用于字符串处理的 Java 8 库,附带源码分析

沉默王二

Java GitHub 字符串

接口测试和性能测试的区别

测试人生路

软件测试 性能测试 接口测试

技术实践丨基于MindSpore框架Yolov3-darknet模型的篮球动作检测体验

华为云开发者联盟

AI 华为云 modelarts

高德最佳实践:Serverless 规模化落地有哪些价值?

阿里巴巴云原生

阿里云 Serverless 云原生

收藏 | 阿里程序员常用的 15 款开发者工具(2020 版)

阿里巴巴云原生

阿里云 程序员 开发者 云原生 Java 25 周年

区块链可信数据服务平台搭建解决方案

t13823115967

区块链 可信区块链

看了 5 种分布式事务方案,我司最终选择了 Seata,真香!

程序员小富

Java 分布式事务 seata

监控之美——Prometheus云原生监控

华章IT

运维 云原生 监控 Prometheus

最详细的Linux TCP/IP 协议栈源码分析

linux大本营

Linux 后台开发 网络编程 C/C++ TCP/IP

没想到我费劲心力学的kafka,还不如阿里大佬整理的这份学习手册,真的是差距啊

小Q

Java kafka 学习 架构 面试

秋招offer收割机——后台服务器开发方向(专业学习路线图总结)

程序员小灰

c++ Linux 后台开发 架构师 服务器端开发

索引为什么能提供查询性能...

小林coding

MySQL 索引 数据结构与算法 B+树

Java开发利器之重试器

Java老k

Java

甲方日常 58

句子

工作 随笔杂谈 日常

CPU虚拟化系列文章1——x86架构CPU虚拟化

华章IT

云计算 Linux cpu 操作系统 虚拟化

支付宝阿牛整合Netty+Redis+ZooKeeper「终极版」高并发手册

Java架构追梦

Java redis zookeeper 面试 Netty

【领福利啦】广受欢迎的人工智能实战课程+“智能音箱”教程免费领!

小冬

人工智能 技术 福利 项目实战 智能音箱

Spring 源码阅读环境的搭建

程序员小航

spring 源码 环境安装 源码阅读 spring 5

红外遥控接收发射原理及ESP8266实现

IoT云工坊

人工智能 物联网 esp8266 红外遥控 pwm

谈谈持续集成、持续交付和持续部署三者究竟是什么,有何联系和区别呢!

ShenDu_Linux

Linux 持续集成 架构师 持续交付 持续部署

Linux笔记(二): vim 基本操作

Leo

Linux 学习 大前端

11.11数据可视化大屏设计揭秘

京东科技开发者

大数据 AI 数据分析 数据可视化 交互设计

Windows环境下如何进行线程Dump分析

Java老k

Java dump

广电总局严打劣迹主播:净化行业环境迫在眉睫

石头IT视角

官宣!开源Delta Lake正式加入Linux基金会,共同打造数据湖开放标准_大数据_蔡芳芳_InfoQ精选文章