火山引擎如何助力抖音打造过亿级DAU的产品?点击报名 了解详情
写点什么

Airflow 成为 Apache 软件基金会的顶级项目

  • 2019-01-14
  • 本文字数:2253 字

    阅读完需:约 7 分钟

Airflow成为Apache软件基金会的顶级项目

Airflow 是一个开源的大数据工作流管理系统,在 Adobe、Airbnb、Etsy、谷歌、ING、Lyft、PayPal、Reddit、Square、推特和美联航等组织得到广泛应用。


2019 年 1 月 8 日,位于马萨诸塞州 Wakefield 的 Apache 软件基金会宣布 Airflow 为顶级项目。


Airflow 是一个灵活可扩展的工作流自动化和调度系统,用于创建和管理数百 PB 级的大数据处理管道。从 Apache 孵化器毕业意味着 Airflow 社区和产品在 ASF 的管理流程和原则下得到了很好的治理。


Airflow 副总裁 Bolke de Bruin 说:“自一开始,Airflow 就迅速地成为工作流编排的事实标准。Airflow 已经在开发人员和数据科学家中获得了广泛的应用,这要归功于它的‘配置即代码’。这让我们在 ASF 孵化过程中赢得了社区的支持,社区不仅使用 Airflow,也为其做出了贡献。Airflow 易于使用、可扩展并拥有多样化的社区力量。它受到了企业和初创公司的欢迎,现在可以升级为顶级项目。”


Airflow 用于编排复杂的计算工作流。通过智能调度、数据库和依赖管理、错误处理和日志记录,Airflow 实现了从单个服务器到大型集群资源管理的自动化。该项目用 Python 编写,具有高度可扩展性,并能够运行用其它语言编写的任务,可以与常用架构和项目集成,例如 AWS、S3、Docker、Apache Hadoop HDFS、Apache Hive、Kubernetes、MySQL、Postgres、Apache Zeppelin,等等。2014 年,Airflow 诞生于 Airbnb,并于 2016 年进入 Apache 孵化器。


目前,有 200 多个组织在使用 Airflow,包括:Adobe、Airbnb、Astronomer、Etsy、谷歌、ING、Lyft、纽约城市规划局、PayPal、Polidea、Qubole、Quizlet、Reddit、Reply、Solita、Square、推特和美联航,等等。已知用户列表可从以下链接获取:https://github.com/apache/incubator-airflow#who-uses-apache-airflow


Adobe Experience Platform 首席架构师 Hitesh Shah 表示:“Adobe Experience Platform 构建于云基础设施之上,利用了多种开源技术,其中包括:Apache Spark、Kafka、Hadoop、Storm 等。Airflow 是大数据处理管道编排引擎生态系统的一个非常好的新成员。我们已经在 Adobe Experience Cloud 的各种场景中使用了 Airflow,并将很快与大家分享我们在 Kubernetes 上运行 Airflow 的实验结果。”


来自 Data Reply 的数据工程师 Kaxil Naik 说:“我们的客户非常喜欢 Airflow。Airflow 已经成为我们过去 2 年中创建的数据管道的一部分,它好像魔戒大师,驯服了我们的机器学习和 ETL 管道。它帮助我们为客户创建了整个数据生态系统的单一视图。Airflow 的数据感知调度和错误处理能力有助于整个报告生成过程的自动化,无需任何人工干预。它可以与谷歌云(以及其他主要的云供应商)集成, 而且由于 Airflow 的‘配置即代码’模式,非技术员工也可以使用它,无需经历陡峭的学习曲线。”


PayPal 首席数据工程师 Sid Anand 说:“PayPal 依靠像 Airflow 这样的工作流调度器来管理 250 多 PB 的数据,满足了 PayPal 的数据移动需求 。此外,Airflow 可用于跨多个分布式系统进行系统编排,包括:自修复、自动扩展和可靠的(重新)配置。”


Qubole 工程经理 Sumit Maheshwari 表示:“自 2016 年 9 月我们将 Airflow 产品作为服务提供以来,很多公司,无论大小,都成功地把他们的工作流迁移到了 Airflow 上。在 Qubole,我们不仅是供应商,还是 Airflow 的大客户。例如,我们的见解和推荐平台是围绕 Airflow 构建的,每个月,我们在其上处理来自数百家企业数十亿个事件,并为他们的大数据解决方案(如 Apache Hadoop、Apache Spark 和 Presto)生成见解。Airflow 的简单性以及其能轻松地与其他解决方案(如云、监控系统或各种数据来源)集成给我们留下了深刻的印象。”


ING WB Advanced Analytics 分析平台负责人 Rob Keevil 表示:“在 ING,我们用 Airflow 来编排我们的核心流程,每天转换全球的数十亿条记录。其功能集、开源传统以及可扩展性非常适合用于协调我们的各种批处理工作负载,包括 ETL 工作流、模型训练、集成脚本、数据完整性测试和告警。我们一开始就在 Airflow 的开发过程中发挥了非常积极的作用,提交了数百个拉取请求以确保社区受益于 ING 创建的 Airflow 改进。我们很高兴看到 Airflow 从 Apache 孵化器毕业了,也很期待这个令人激动的项目在未来的发展!”


Polidea 首席软件工程师 Jarek Potiuk 说:“在我们开始做出贡献并使用 Airflow 时,就已经看到它作为编排器的价值所在。当需要维护一个巨大的配置时,由工程师们开发和维护整个工作流通常是个巨大的挑战。借助 Airflow,DevOps 仍然可以使用标准的编码工具来改进你的基础设施。它最好的地方就是‘基础设施即代码’。”


Airflow 副总裁 Bolke de Bruin 补充道:“工作流编排在我们所处的(大)数据时代扮演着至关重要的角色。该领域发展非常快,并且新的数据思维刚开始产生影响。Airflow 是数据时代的产物,因而定位非常好,并且因为年轻,还有很多发展余地。Airflow 可以利用科学计算、企业、初创公司的聪明才智更进一步地改进。”


可用性和监督


Airflow 基于 Apache License v2.0 许可,并由一个活跃贡献者自选团队进行监督。项目管理委员会指导项目的日常运营工作,包括社区开发和产品发布。关于文件下载、文档信息和加入 Airflow 的方法,请参考以下链接:http://airflow.apache.org/https://twitter.com/ApacheAirflow


阅读英文原文:The Apache Software Foundation Announces Airflow as a Top-Level Project,https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces44


2019-01-14 20:558791
用户头像

发布了 199 篇内容, 共 74.9 次阅读, 收获喜欢 289 次。

关注

评论

发布
暂无评论
发现更多内容

Tapdata 在线研讨会:DaaS vs 大数据平台,是竞争还是共处?

tapdata

数据库

太完整了!阿里内部热捧“Spring全线笔记”,不止是全家桶

热爱java的分享家

Java 面试 编程语言 springboot 经验分享

[SpringBoot源码分析]SpringBoot如何启动

零点999

spring SpringBoot 2

深圳企业办理等保备案流程详细说明

行云管家

网络安全 深圳 等级保护 等保备案

质量基础设施一站式服务平台开发,国家NQI一站式云平台搭建

电微13828808271

打造一个物联网平台真的工程巨大吗?

Speedoooo

容器 ios开发 APP开发 Andriod开发

公布半小时下载量达10W:阿里大牛出品「MyCat笔记」真香

热爱java的分享家

Java 面试 编程语言 经验分享 mycat

索信达控股:四大策略、五大行动,新趋势下数字生态的落地策略及行动路径

索信达控股

金融科技 数字化转型 数字金融 银行业 金融机构

Forrester发布首份《中国低代码平台发展报告》,有多少企业应用低代码?

J2PaaS低代码平台

敏捷开发 低代码 低代码开发 低代码平台 低代码报告

学不懂Netty?看不懂源码?不存在的,手把手带你阅读Netty源码

热爱java的分享家

Java 架构 程序人生 编程语言 经验分享

100行代码,轻松搞定文本编辑器中草稿箱

Tom弹架构

Java 架构 设计模式

Flink CDC 2.0 数据处理流程全面解析

大数据技术指南

11月日更

观测云产品更新|新增场景笔记、监控SLO、升级场景视图、异常检测库等功能

观测云

功能更新

灵犀平台—API的全可视化开发

鲸品堂

开发者 工具

【可观测之路】“观测云”CSDN技术专区正式上线!

观测云

可观测 CSDN

我以为自己MySQL够牛逼了,直到看到了Alibaba的面试题

热爱java的分享家

Java 面试 程序人生 编程语言 经验分享

【概率】抽屉中的袜子

潮汐朝夕

概率

一文带你快速掌握PTN网络的路由计算

鲸品堂

深入理解 WKWebView(入门篇)—— WebKit 源码调试与分析

百度Geek说

Webkit

HBase 基础及核心架构解析

五分钟学大数据

11月日更

提升软件开发效率,企业数字化转型更轻松?

云原生开发者社区

技术 云原生 开发 数字化转型

保姆级神器 Maven,再也不用担心项目构建搞崩了

沉默王二

Java maven

如何利用EasyRecovery恢复c盘已删文档

淋雨

数据恢复

WICC 花城登场,揭秘时代变局下通信服务新形态

融云 RongCloud

开发者 社交 元宇宙 泛娱乐 通信云技术大会

一张图 GET 社交泛娱乐出海大招

融云 RongCloud

智慧园区综合管理平台系统开发,智慧园区综合能源管理系统方案

电微13828808271

“阿里爸爸”又爆新作!Github新开源303页Spring全家桶高级笔记

热爱java的分享家

Java 面试 编程语言 经验分享 Spring全家桶

企业云资源管理系统着重推荐-行云管家!

行云管家

云计算 服务器 云资源

恒源云(GPUSHARE)_长尾分布的多标签文本分类平衡方法(论文学习笔记)

恒源云

人工智能 深度学习 算力

Airflow成为Apache软件基金会的顶级项目_大数据_Apache软件基金会_InfoQ精选文章