【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

AWS 推出 Apache Airflow 全托管工作流 MWAA

  • 2020-12-09
  • 本文字数:1362 字

    阅读完需:约 4 分钟

AWS推出Apache Airflow全托管工作流MWAA

最近,AWS 推出了亚马逊Apache Airflow托管工作流(MWAA),这是一项全托管的服务,简化了在 AWS 上运行开源版 Apache Airflow 和构建工作流来执行 ETL 作业和数据管道的工作。


Apache Airflow 是一个开源工具,用于通过编程的方式开发、调度和监控被称为“工作流”的过程和任务序列。开发人员和数据工程师用 Apache Airflow 管理工作流,通过用户界面(UI)来监控它们,并通过一组强大的插件来扩展它们的功能。但是,要使用 Apache Airflow,需要进行手动安装、维护和扩展。现在,AWS 解决了这个问题,它为开发人员和数据工程师提供了 MWAA,让他们可以在云端构建和管理自己的工作流,无需关心与管理和扩展 Airflow 平台基础设施相关的问题。


在 AWS 有关 MWAA 的新闻稿中,负责应用集成的副总裁 Jesse Dougherty 说:


客户告诉我们,他们非常喜欢 Apache Airflow,因为它加快了数据处理和机器学习工作流的开发,但他们希望能够去掉扩展、运维和保护服务器方面的负担。通过使用 Amazon MWAA,客户可以使用与现在相同的 Apache Airflow 平台,同时获得由 AWS 提供的可伸缩性、可用性和安全性。


Amazon MWAA 可以使用Amazon Athena获取来自数据源(如Amazon Simple Storage Service)的输入,在Amazon EMR集群上执行转换,并使用生成的数据在Amazon SageMaker上训练机器学习模型。此外,开发人员和数据工程师可以使用 Python 在 Amazon MWAA 中编写有向无环图(DAG)工作流。



来源:https://aws.amazon.com/managed-workflows-for-apache-airflow/


AWS 首席布道师 Danilo Poccia 在 NWAA 的一篇介绍博文中写道:


你可以通过以下三个步骤来使用亚马逊 MWAA:

创建环境——每个环境都包含你的 Airflow 集群,包括调度器、工作程序和 Web 服务器。开发人员和数据工程师可以从控制台、AWS命令行接口(CLI)或AWS SDK创建新的 Amazon MWAA 环境。

上传 DAG 和插件到 S3——Amazon MWAA 自动将代码加载到 Airflow 中。

在 Airflow 中运行 DAG——从 Airflow UI 或命令行(CLI)运行 DAG,并使用 CloudWatch 监控环境。


有了 MWAA,开发人员和数据工程师可以通过插件获得开放可扩展性所带来的好处,他们可以创建与工作流所需的 AWS 或内部资源发生交互的任务,包括 AWS Batch、Amazon CloudWatch、Amazon DynamoDB、AWS Lambda、Amazon Redshift、Amazon Simple Queue Service (SQS)和 Amazon Simple Notification Service(SNS)。


需要注意的是,AWS 还有其他工作流管理系统,比如Step FunctionsAWS Glue。Hacker News 上的一位受访者在一篇帖子中解释说:


它是由内部的 Orchestration 团队开发的——这个团队也开发了 Step Functions,并维护着AWS Simple Workflow。我认为 Glue 与其他的工作流系统不一样——它针对 ETL 进行了深度优化。我相信,随着时间的推移,会出现更多有关 Step Functions 和 Apache Airflow 的详细指南,不过简单地说,Step Functions 是完全 AWS 原生的(并且是无服务器的)编配引擎。当然,Apache Airflow 是一个开源的项目,它拥有一个由其他插件组成的多样化生态系统。


MWAA 目前可在下列 AWS 区域使用:美国东部(俄亥俄州和弗吉尼亚州)、美国西部(俄勒冈州)、欧盟(斯德哥尔摩、爱尔兰和法兰克福)和亚太地区(东京、新加坡和悉尼),其他更多地区将会陆续可用。此外,有关服务的详细信息可以在文档页面上获得,有关价格的详细信息可以在定价页面上获得。


原文链接


AWS Introduces Amazon Managed Workflows for Apache Airflow


2020-12-09 16:003625

评论

发布
暂无评论
发现更多内容

云图说|DRS数据对比——带您随时观测数据一致性

华为云开发者联盟

数据库 华为云 DRS 数据迁移

对话中移上研院,分享DevOps及运维观点

龙智—DevSecOps解决方案

DevOps 运维 中移上研院

什么是 Java Marker Interface(标记接口)

Jerry Wang

Java jdk volatile 28天写作 12月日更

Flutter 将整个App变为灰色(勿忘国殇 警钟长鸣)【Flutter专题21】

坚果

flutter 28天写作 12月日更

vivo浏览器的快速开发平台实践-总览篇

vivo互联网技术

敏捷开发 浏览器 开发平台

lancet: 一个全面、高效、可复用的go语言工具函数库

柳叶刀

Go web go modules

架构实战 - 毕业总结

咖啡

Vue3进阶(贰):Vue3 新特性

No Silver Bullet

Vue3 12月日更

为什么一半的人员能够完成超过去年的事情?(13/28)

赵新龙

28天写作

react源码解析7.Fiber架构

buchila11

React

react源码解析8.render阶段

buchila11

React

面试官:说说你对react生命周期的理解

全栈潇晨

React

现代配置指南——YAML 比 JSON 高级在哪?

杨成功

json 大前端 架构师 yaml 签约计划第二季

给弟弟的信第11封|Java学习路线

大菠萝

28天写作

【LeetCode】统计「优美子数组」Java题解

Albert

算法 LeetCode 12月日更

文件写入的6种方法,你知道几种

编程江湖

JAVA开发

Linux系统学习攻略《Linux一学就会》:Linux系统启动原理及故障排除

侠盗安全

Linux linux运维 运维工程师 云计算架构师 linux电子书

CSDN热榜、华为云博客都可用来练习Python scrapy 爬虫

梦想橡皮擦

12月日更

如何优雅地在Vue页面中引入图片

编程江湖

前端开发

详细解读MySQL中的B+Tree 落地形式

秋水

MySQL优化 内容合集 签约计划第二季 B+tree

大数据基石之Hadoop的读写流程与2.X架构

编程江湖

大数据 hadoop

初识 AspectJ ~

阿策小和尚

28天写作 Android 小菜鸟 12月日更

专题:基于云的技术架构设计实践

hackstoic

DevOps 云原生 技术架构 内容合集 签约计划第二季

电商系统微服务拆分及架构设计

stars

架构训练营 电商微服务分析

元宇宙100讲-0x003

hackstoic

元宇宙

java开发之Java ORM 框架推荐

@零度

Java Java ORM ​ObjectiveSQL

MySQL设置数据库为只读

Simon

MySQL

关于人脸识别的一个应用案例

为自己带盐

人脸识别 28天写作 百度智能云 12月日更

4个优化方法,让你能了解join计算过程更透彻

华为云开发者联盟

数据 高性能 哈希表 join 标识对齐

Redis(二):内存模型及回收算法

IT巅峰技术

Java redis 架构师 分布式缓存 redis分布式

模块六课后作业-拆分电商系统为微服务

断水风春

架构实战营

AWS推出Apache Airflow全托管工作流MWAA_服务革新_Steef-Jan Wiggers_InfoQ精选文章