AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

Netflix 开源下一代数据工作流引擎 Maestro

  • 2024-08-15
    北京
  • 本文字数:1170 字

    阅读完需:约 4 分钟

大小:547.43K时长:03:06
Netflix 开源下一代数据工作流引擎 Maestro

Maestro 为 Netflix 的数据科学家与需要大量信息的的业务线经理提供了工作流即服务。

视频和游戏流媒体服务 Netflix 已将自己的工作流编排器开源发布,这家公司的数据科学家和分析师大军每天都会使用它来了解用户行为和其他大规模数据驱动趋势。

 

这款名为 Maestro 的工作流编排器基于 Apache 2.0 许可证发布。它设计为支持数十万个工作流,并且在 Netflix 已经实现了单日多达 200 万个作业的输出。

Maestro 的工作原理

据 Netflix 工程师介绍,这款编排器具备高度可扩展性和可缩放能力,即使在流量高峰期间也能满足严格的服务级别目标 (SLO)。

Maestro 工作流程图。

 

它构建于一系列开源技术之上,包括 Git、Java(21)、Gradle 和 Docker。

 

Maestro 可以从 cURL 命令行调用,提供了创建、运行和删除工作流和相关数据批的能力。工作流以 JSON 定义,用户的业务逻辑可以打包成 Docker 镜像、Jupyter 笔记本、bash 脚本、SQL、Python 和其他格式。

 

Maestro 在后台管理工作流的整个生命周期,处理重试、排队需求并给计算引擎分配任务。它不仅支持有向无环图(DAG)——2024 年人工智能驱动浪潮中的热门技术——还支持循环工作流和多个可重用模式,包括 for each 循环、子工作流和条件分支。

 

“它支持众多工作流用例,包括 ETL 管道、ML 工作流、AB 测试管道、在不同存储之间移动数据的管道,”Netflix 的一组工程师在最近宣布发布的博客文章中写道。“Maestro 的水平可缩放性确保它可以管理大量工作流和单个工作流中的大量作业。”

Maestro 的诞生

Netflix 早已入局开源领域,它已经发布了许多内部开发的开源工具。系统压力测试工具 Chaos Monkey 于 2011 年发布,催生了整整一代混沌测试工具。Netflix 剥离的其他开源项目包括路由网关 Zuul 和微服务路由引擎 Conductor,后者现已弃用。

 

Netflix 于 2022 年在一篇解释其起源的博客文章中首次向全世界介绍了 Maestro。当时他们使用的编排器 Meson 在数千个日常作业的负载下不堪重负,尤其是在高峰使用时间更是如此。

 

“Meson 基于一个具有高可用性的单一领导者架构。随着使用量的增加,我们不得不垂直扩展系统来满足需求,并且正在接近 AWS 实例类型的限制,”工程师在 2022 年的帖子中写道。

 

更糟糕的是,那时他们预计负载每年至少增加 100%,工作流的规模也预计会增加。

从一开始,Maestro 就被设计为高度可扩展和可缩放的。它建立在 DAG 架构上,其中每个工作流都由一系列步骤组成。每个步骤都可以有依赖项、触发器和其他条件。每个工作流的业务逻辑都是独立运行的,保证满足 SLO。所有服务都设计为无状态的,因此可以根据需要来缩放。

 

在 Amazon Web Services 2023 年 Re:Invent 大会上,Netflix 工程团队进一步详细介绍了 Maestro:

https://youtu.be/kPYPgR0Gzrs

 

原文链接:https://thenewstack.io/netflix-open-sources-maestro-a-next-gen-data-workflow-engine/

2024-08-15 14:4513922

评论

发布
暂无评论
发现更多内容

【YashanDB 知识库】ycm 托管数据库时,数据库非 OM 安装无法托管

数据库砖家

数据库

直播预告丨金融行业如何拥抱AI,实现数智化转型?华为大咖带你快速搞懂!

YG科技

局域网聊天工具BeeWorks

BeeWorks

即时通讯

webgis软件开发的技术方案

北京木奇移动技术有限公司

软件外包公司 webGIS开发 GIS开发

Playwright跨浏览器自动化测试实践

测试人

软件测试

迁移方案详解 | 使用 YMP 从异构数据库迁移到 YashanDB

数据库砖家

数据库

【实用教程】如何快速搭建一套私有的埋点系统?

ClkLog

开源 埋点 sdk 用户行为分析 画像

YashanDB 配置参数调整后无法关闭数据库

数据库砖家

数据库

YashanDB:YAS-02024 锁等待超时处理

数据库砖家

数据库

视频会议软件私有化,企业内网部署

BeeWorks

BeeWorks 内网IM软件:企业数字化协作的超级底座

BeeWorks

即时通讯

QGIS软件项目的开发框架

北京木奇移动技术有限公司

软件外包公司 GIS开发 QGIS开发

Arthas logger(查看 logger 信息,更新 logger level)

刘大猫

日志 Arthas 监控工具 logger 查看日志

等保测评定级材料

黑龙江陆陆信息测评部

仓颉开发语言入门教程:常见UI组件介绍和一些问题踩坑

幽蓝计划

仓颉开发教程

车载LED显示屏的功能与魅力

Dylan

汽车 LED显示屏 全彩LED显示屏 户外LED显示屏 led显示屏厂家

五十年了,终于等来了鸿蒙电脑

白洞计划

鸿蒙

PDF一键转PPT!这5个AI软件办公必备,建议收藏!

职场工具箱

人工智能 AI PPT AIGC AI生成PPT

先进存力布局具身智能新赛道,曙光存储拿下AI存储市场冠军

科技热闻

YashanDB:PL 语言使用全指南

数据库砖家

数据库

YashanDB:YAS-00413 登录失败原因分析与解决方案

数据库砖家

数据库

用 CodeBuddy 三步打造一个超治愈的情绪出口

不惑

CodeBuddy

CST基础教程:用IDEMWORK提取宽带宏模型(下)

思茂信息

cst CST软件 CST Studio Suite

Dify实战案例《AI面试官》更新,支持语音交互+智能知识库+随机题库+敏感词过滤等...

王磊

YashanDB 开机自启

数据库砖家

数据库

《算法导论(第4版)》阅读笔记:p86-p90

codists

算法

Cooltools.top(官网搜索引擎) 的搜索体验优化日志

Yongqiang

Amazon Bedrock 上的模型擂台赛:Nova、Claude,谁是最强图片/视频审核大模型?

亚马逊云科技 (Amazon Web Services)

从一个案例刨析企业成功转型“脚手架”的三个有效杠杆

ShineScrum

敏捷 敏捷开发 产品开发 硬件敏捷 RSG

BeeWorks IM即时通讯:企业级安全与高效沟通的首选

BeeWorks

QGIS软件系统性能优化

北京木奇移动技术有限公司

软件外包公司 GIS开发 QGIS开发

Netflix 开源下一代数据工作流引擎 Maestro_实时计算_Joab Jackson_InfoQ精选文章