2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Netflix 开源内部 Python 工具 Metaflow:机器学习项目部署时间从四个月缩短至 7 天

  • 2019-12-05
  • 本文字数:1308 字

    阅读完需:约 4 分钟

Netflix开源内部Python工具Metaflow:机器学习项目部署时间从四个月缩短至7天

2019 年 12 月 4 日,Netflix数据科学团队宣布其内部使用多年的 Python 库 Metaflow 正式开源。Metaflow 是 Netflix 机器学习基础架构的关键部件,主要用于加速数据科学工作流的构建和部署,Netflix 希望通过开源 Metaflow 简化机器学习项目从原型阶段到生产阶段的过程,进而提高数据科学家的工作效率。



Netflix(官方中文名称:网飞)是全球最大的视频流媒体平台,在除中国大陆以外的所有国家和地区都提供视频点播服务。这家视频流媒体巨头在其业务的各个方面都使用了机器学习,从剧本分析到优化制作时间表、预测客户流失、视频定价、视频字幕翻译以及优化其庞大的内容分发网络,而其中有许多机器学习应用都由 Metaflow 提供支持。它是一个基于 Python 编写的框架,可以使机器学习项目从原型阶段到生产阶段变得更加容易。在过去两年中,Metaflow 已在 Netflix 内部用于构建和管理从自然语言处理到运营研究的数百个数据科学项目。



据Netflix内部调研发现,数据科学家喜欢使用 Python 代码来实现业务逻辑,但不想花费太多时间思考诸如对象层次结构、封装等问题,或处理各类晦涩的 API。


因此,Metaflow 想做的就是让 Netflix 数据科学家能够尽早查看原型模型是否会在生产环境中失败,让他们可以提前解决问题,并加快部署速度。Netflix 在 2 月份的一场演讲中透露,Metaflow 已经将 Netflix 机器学习项目的部署时间中位数从四个月缩短到了仅仅 7 天。



Metaflow 为机器学习项目整个流程提供了统一的 API,数据科学家可以使用 Metaflow 设计自己的工作流程,大规模运行并将其部署到生产环境。它会自动对所有实验和数据进行版本控制和跟踪,同时,Metaflow 的 UI 能够与 Jupyter notebooks 无缝集成。与其他 Python 工具类似,数据科学家可以在笔记本电脑上快速开发和测试代码,如果工作流支持并行,Metaflow 会自动利用开发 PC 上所有可用的 CPU 内核。


Metaflow 也可以与当前主流的 Python 数据科学库一起使用,包括 PyTorch、Tensorflow 和 SciKit Learn。


想了解 Metaflow 所有功能的详细介绍,可以查阅官方文档

支持 AWS 服务无缝集成

多年来 Netflix 一直是Amazon Web Services(AWS)的最大用户之一,因此,Metaflow 支持与众多 AWS 服务无缝集成也就不足为奇了。Netflix 软件工程师表示,Metaflow 是一个云原生框架,能够充分利用云在存储和计算上的弹性。


Metaflow 支持对 Amazon S3 中所有代码和数据的自动快照功能,可以帮助用户使用 AWS 的存储、计算和机器学习服务快速扩展模型,同时,这也使 Metaflow 能够实现自动版本控制和实验跟踪,无需任何人为干预,开发人员可以非常方便地检查和恢复 Metaflow 的执行情况,这是所有生产级机器学习基础架构的核心。


此外,Metaflow 还绑定了一个高性能的 S3 客户端,它可以加载高达 10Gbps 的数据,加快用户的模型迭代周期。



针对通用数据处理,Metaflow 与基于 AWS 容器的计算平台 Batch 集成。开发者只需要在代码中添加一行:@batch,就可以利用无限扩展的计算集群。对于机器学习模型的训练,除了编写自己的功能,用户还可以选择使用 AWS Sagemaker,它提供了各种模型的高性能实现,其中许多支持分布式训练。


关于 Metaflow 与 AWS 集成的更多详细信息,可以查看此页面


2019-12-05 17:393367
用户头像
蔡芳芳 InfoQ 总编辑

发布了 819 篇内容, 共 621.4 次阅读, 收获喜欢 2823 次。

关注

评论

发布
暂无评论
发现更多内容

阿里云EMR StarRocks X Paimon创建 Streaming Lakehouse

Apache Flink

大数据 flink StarRocks EMR

云桌面适合哪些类型的工作

青椒云云电脑

云桌面

软件测试学习笔记丨宠物商店-接口自动化测试实战

测试人

软件测试

AIGC加速商业化落地,抖音开放平台如何打造新ToB商业模式?

ToB行业头条

RUM性能优化之图片加载

乘云数字DataBuff

前端监控 可观测性 JavaScrip RUM

AI+云原生时代,高校该如何创新教育模式

是但求其发

云计算 软件工程 计算机 大学 #云原生

离了大谱,和HR互怼后被开了!

王磊

NIPs 平台:Mint Blockchain 推动 NFT 创新的新平台

NFT Research

NFT\ #Web3

博睿数据首届“观测先锋 · 2024 可观测平台创新应用案例大赛”现已启动!

博睿数据

淘宝商品详情数据接口:解锁电商数据分析新密码

tbapi

淘宝商品详情数据接口

云桌面解决方案:为何远程办公需要它们

青椒云云电脑

云桌面 云桌面系统 云桌面技术

1688跨境代采集运系统

tbapi

1688代采系统 1688代购系统 1688跨境代采系统

零一万物 Yi-Lightning:超越 GPT-4o 冲击全球榜单;阿里国际 Marco 翻译大模型发布丨 RTE 开发者日报

声网

百度搜索2024考研大数据:北方考生“南移”成潮流

极客天地

大数据存储计算平台EasyMR:大数据集群动态扩缩容,快速提升集群服务能力

袋鼠云数栈

公链技术开发之路:从概念到实现的公链开发全攻略

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 代币开发 海外推广

鸿蒙开发案例:绘制中国象棋棋盘与棋子的技术教程

zhongcx

k8s-NFS系统配置

不在线第一只蜗牛

Kubernetes 容器 云原生

一图为你揭秘云数据库GaussDB管理平台亮点

华为云开发者联盟

云原生 GaussDB 智能运维 数据库·

什么政府网站一定要安装SSL证书吗?应该选择哪种SSL证书?

防火墙后吃泡面

如何评估云桌面套餐的性价比?

青椒云云电脑

桌面云 云桌面 云桌面厂家 云桌面系统

淘宝 app 商品详情数据接口:让你轻松掌握优惠价、视频和到手价,助力电商决策

tbapi

淘宝商品详情接口 淘宝app详情接口 淘宝详情数据接口 淘宝优惠券接口 淘宝到手价接口

完全指南:如何高效进行业务应用开发?

NocoBase

开源 低代码 开发工具 无代码 业务应用开发

推荐给远程办公用户的云桌面服务

青椒云云电脑

云桌面 云桌面厂家 云桌面系统

有哪些常见的云桌面套餐比较推荐?

青椒云云电脑

云桌面 云桌面厂家 云桌面方案

得物iOS函数调用栈及符号化调优实践|得物技术

得物技术

ios

实时语音交互的游戏队友——网易伏羲AI Agent创新应用 | DataFunSummit2024演讲实录

网易伏羲

人工智能 AI 语音 网易伏羲 游戏AI

Netflix开源内部Python工具Metaflow:机器学习项目部署时间从四个月缩短至7天_AI&大模型_蔡芳芳_InfoQ精选文章