GMTC深圳站售票最后一周,点击查看最新日程>> 了解详情
写点什么

Airflow 成为 Apache 软件基金会的顶级项目

  • 2019 年 1 月 14 日
  • 本文字数:2253 字

    阅读完需:约 7 分钟

Airflow成为Apache软件基金会的顶级项目

Airflow 是一个开源的大数据工作流管理系统,在 Adobe、Airbnb、Etsy、谷歌、ING、Lyft、PayPal、Reddit、Square、推特和美联航等组织得到广泛应用。


2019 年 1 月 8 日,位于马萨诸塞州 Wakefield 的 Apache 软件基金会宣布 Airflow 为顶级项目。


Airflow 是一个灵活可扩展的工作流自动化和调度系统,用于创建和管理数百 PB 级的大数据处理管道。从 Apache 孵化器毕业意味着 Airflow 社区和产品在 ASF 的管理流程和原则下得到了很好的治理。


Airflow 副总裁 Bolke de Bruin 说:“自一开始,Airflow 就迅速地成为工作流编排的事实标准。Airflow 已经在开发人员和数据科学家中获得了广泛的应用,这要归功于它的‘配置即代码’。这让我们在 ASF 孵化过程中赢得了社区的支持,社区不仅使用 Airflow,也为其做出了贡献。Airflow 易于使用、可扩展并拥有多样化的社区力量。它受到了企业和初创公司的欢迎,现在可以升级为顶级项目。”


Airflow 用于编排复杂的计算工作流。通过智能调度、数据库和依赖管理、错误处理和日志记录,Airflow 实现了从单个服务器到大型集群资源管理的自动化。该项目用 Python 编写,具有高度可扩展性,并能够运行用其它语言编写的任务,可以与常用架构和项目集成,例如 AWS、S3、Docker、Apache Hadoop HDFS、Apache Hive、Kubernetes、MySQL、Postgres、Apache Zeppelin,等等。2014 年,Airflow 诞生于 Airbnb,并于 2016 年进入 Apache 孵化器。


目前,有 200 多个组织在使用 Airflow,包括:Adobe、Airbnb、Astronomer、Etsy、谷歌、ING、Lyft、纽约城市规划局、PayPal、Polidea、Qubole、Quizlet、Reddit、Reply、Solita、Square、推特和美联航,等等。已知用户列表可从以下链接获取:https://github.com/apache/incubator-airflow#who-uses-apache-airflow


Adobe Experience Platform 首席架构师 Hitesh Shah 表示:“Adobe Experience Platform 构建于云基础设施之上,利用了多种开源技术,其中包括:Apache Spark、Kafka、Hadoop、Storm 等。Airflow 是大数据处理管道编排引擎生态系统的一个非常好的新成员。我们已经在 Adobe Experience Cloud 的各种场景中使用了 Airflow,并将很快与大家分享我们在 Kubernetes 上运行 Airflow 的实验结果。”


来自 Data Reply 的数据工程师 Kaxil Naik 说:“我们的客户非常喜欢 Airflow。Airflow 已经成为我们过去 2 年中创建的数据管道的一部分,它好像魔戒大师,驯服了我们的机器学习和 ETL 管道。它帮助我们为客户创建了整个数据生态系统的单一视图。Airflow 的数据感知调度和错误处理能力有助于整个报告生成过程的自动化,无需任何人工干预。它可以与谷歌云(以及其他主要的云供应商)集成, 而且由于 Airflow 的‘配置即代码’模式,非技术员工也可以使用它,无需经历陡峭的学习曲线。”


PayPal 首席数据工程师 Sid Anand 说:“PayPal 依靠像 Airflow 这样的工作流调度器来管理 250 多 PB 的数据,满足了 PayPal 的数据移动需求 。此外,Airflow 可用于跨多个分布式系统进行系统编排,包括:自修复、自动扩展和可靠的(重新)配置。”


Qubole 工程经理 Sumit Maheshwari 表示:“自 2016 年 9 月我们将 Airflow 产品作为服务提供以来,很多公司,无论大小,都成功地把他们的工作流迁移到了 Airflow 上。在 Qubole,我们不仅是供应商,还是 Airflow 的大客户。例如,我们的见解和推荐平台是围绕 Airflow 构建的,每个月,我们在其上处理来自数百家企业数十亿个事件,并为他们的大数据解决方案(如 Apache Hadoop、Apache Spark 和 Presto)生成见解。Airflow 的简单性以及其能轻松地与其他解决方案(如云、监控系统或各种数据来源)集成给我们留下了深刻的印象。”


ING WB Advanced Analytics 分析平台负责人 Rob Keevil 表示:“在 ING,我们用 Airflow 来编排我们的核心流程,每天转换全球的数十亿条记录。其功能集、开源传统以及可扩展性非常适合用于协调我们的各种批处理工作负载,包括 ETL 工作流、模型训练、集成脚本、数据完整性测试和告警。我们一开始就在 Airflow 的开发过程中发挥了非常积极的作用,提交了数百个拉取请求以确保社区受益于 ING 创建的 Airflow 改进。我们很高兴看到 Airflow 从 Apache 孵化器毕业了,也很期待这个令人激动的项目在未来的发展!”


Polidea 首席软件工程师 Jarek Potiuk 说:“在我们开始做出贡献并使用 Airflow 时,就已经看到它作为编排器的价值所在。当需要维护一个巨大的配置时,由工程师们开发和维护整个工作流通常是个巨大的挑战。借助 Airflow,DevOps 仍然可以使用标准的编码工具来改进你的基础设施。它最好的地方就是‘基础设施即代码’。”


Airflow 副总裁 Bolke de Bruin 补充道:“工作流编排在我们所处的(大)数据时代扮演着至关重要的角色。该领域发展非常快,并且新的数据思维刚开始产生影响。Airflow 是数据时代的产物,因而定位非常好,并且因为年轻,还有很多发展余地。Airflow 可以利用科学计算、企业、初创公司的聪明才智更进一步地改进。”


可用性和监督


Airflow 基于 Apache License v2.0 许可,并由一个活跃贡献者自选团队进行监督。项目管理委员会指导项目的日常运营工作,包括社区开发和产品发布。关于文件下载、文档信息和加入 Airflow 的方法,请参考以下链接:http://airflow.apache.org/https://twitter.com/ApacheAirflow


阅读英文原文:The Apache Software Foundation Announces Airflow as a Top-Level Project,https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces44


2019 年 1 月 14 日 20:558571
用户头像

发布了 199 篇内容, 共 69.7 次阅读, 收获喜欢 281 次。

关注

评论

发布
暂无评论
发现更多内容

【Java 集合框架】Stack、Queue 和 Deque 的使用

Java 程序员 后端

双十一快递即将抵达,你想好旧物怎么处理了吗?

旺链科技

区块链 联盟链 产业链 产业区块链

【Java面试题】常见Java面试知识点总结

Java 程序员 后端

【Redis缓存】- Redis数据结构、基本命令操作、持久化

Java 程序员 后端

【Redis面试题】Redis的字符串是怎么实现的?

Java 程序员 后端

【Java从0到架构师】SQL 多表查询

Java 程序员 后端

【Java面试题总结 4】Java Web、网络、设计模式综合篇

Java 程序员 后端

万文讲解实时数仓架构演进

大数据技术指南

11月日更

【C 语言小游戏】手打贪吃蛇1

Java 程序员 后端

【Java设计模式实战系列】好的单例模式是怎样的?

Java 程序员 后端

【Java面经】阿里三面被挂!幸获内推,历经5轮终于拿到口碑offer(1)

Java 程序员 后端

【MyBatis系列4】一对一,一对多,多对多查询及延迟加载(N+1问题)分析

Java 程序员 后端

「并发原理专题」AQS的技术体系之CLH、MCS锁的原理及实现

Java 程序员 后端

心情不好的时候,画棵樱花树送给自己

天马行空

过等保选择云堡垒机还是硬件堡垒机比较好?

行云管家

网络安全 云服务 堡垒机 等级保护

【Java设计模式系列】装饰器模式(Decorator Pattern)

Java 程序员 后端

墨天轮国产数据库沙龙 | 张晓庆:GoldenDB分布式数据库的自动安装与备份恢复

墨天轮

数据库 技术沙龙

【Java核心面试宝典】Day3、图解HashMap高频面试及底层实现架构!

Java 程序员 后端

【Java 基础语法】万字解析 Java 的多态、抽象类和接口

Java 程序员 后端

【Java从0到架构师】Maven

Java 程序员 后端

公有云是什么意思?其存在的意义是什么?

行云管家

云计算 公有云 私有云 混合云

【Java面经】阿里三面被挂!幸获内推,历经5轮终于拿到口碑offer

Java 程序员 后端

【MyBatis系列2】最全MyBatis核心配置文件总结,可以作为工具先收藏了

Java 程序员 后端

【Java每日面试题】大厂是如何设计秒杀系统的?

Java 程序员 后端

【Java知识点详解 7】装箱和拆箱

Java 程序员 后端

区块链食品溯源平台,给食品定制数字“身份证”

电微13828808271

【Java 多线程 1】CountDownLatch

Java 程序员 后端

『技术分析』一分飞艇走势软件如何稳赚《手机搜狐》

天马行空

大数据中必须要掌握的 Flink SQL 详细剖析

五分钟学大数据

flink 11月日更

质量基础设施一站式综合服务平台,NQI一站式服务线上平台

电微13828808271

【Redis系列2】Redis字符串对象之SDS(简单动态字符串)实现原理分析

Java 程序员 后端

数据cool谈(第2期)寻找下一代企业级数据库

数据cool谈(第2期)寻找下一代企业级数据库

Airflow成为Apache软件基金会的顶级项目-InfoQ