写点什么

Netflix 开源内部 Python 工具 Metaflow:机器学习项目部署时间从四个月缩短至 7 天

2019 年 12 月 05 日

Netflix开源内部Python工具Metaflow:机器学习项目部署时间从四个月缩短至7天

2019 年 12 月 4 日,Netflix数据科学团队宣布其内部使用多年的 Python 库 Metaflow 正式开源。Metaflow 是 Netflix 机器学习基础架构的关键部件,主要用于加速数据科学工作流的构建和部署,Netflix 希望通过开源 Metaflow 简化机器学习项目从原型阶段到生产阶段的过程,进而提高数据科学家的工作效率。



Netflix(官方中文名称:网飞)是全球最大的视频流媒体平台,在除中国大陆以外的所有国家和地区都提供视频点播服务。这家视频流媒体巨头在其业务的各个方面都使用了机器学习,从剧本分析到优化制作时间表、预测客户流失、视频定价、视频字幕翻译以及优化其庞大的内容分发网络,而其中有许多机器学习应用都由 Metaflow 提供支持。它是一个基于 Python 编写的框架,可以使机器学习项目从原型阶段到生产阶段变得更加容易。在过去两年中,Metaflow 已在 Netflix 内部用于构建和管理从自然语言处理到运营研究的数百个数据科学项目。



据Netflix内部调研发现,数据科学家喜欢使用 Python 代码来实现业务逻辑,但不想花费太多时间思考诸如对象层次结构、封装等问题,或处理各类晦涩的 API。


因此,Metaflow 想做的就是让 Netflix 数据科学家能够尽早查看原型模型是否会在生产环境中失败,让他们可以提前解决问题,并加快部署速度。Netflix 在 2 月份的一场演讲中透露,Metaflow 已经将 Netflix 机器学习项目的部署时间中位数从四个月缩短到了仅仅 7 天。



Metaflow 为机器学习项目整个流程提供了统一的 API,数据科学家可以使用 Metaflow 设计自己的工作流程,大规模运行并将其部署到生产环境。它会自动对所有实验和数据进行版本控制和跟踪,同时,Metaflow 的 UI 能够与 Jupyter notebooks 无缝集成。与其他 Python 工具类似,数据科学家可以在笔记本电脑上快速开发和测试代码,如果工作流支持并行,Metaflow 会自动利用开发 PC 上所有可用的 CPU 内核。


Metaflow 也可以与当前主流的 Python 数据科学库一起使用,包括 PyTorch、Tensorflow 和 SciKit Learn。


想了解 Metaflow 所有功能的详细介绍,可以查阅官方文档


支持 AWS 服务无缝集成

多年来 Netflix 一直是Amazon Web Services(AWS)的最大用户之一,因此,Metaflow 支持与众多 AWS 服务无缝集成也就不足为奇了。Netflix 软件工程师表示,Metaflow 是一个云原生框架,能够充分利用云在存储和计算上的弹性。


Metaflow 支持对 Amazon S3 中所有代码和数据的自动快照功能,可以帮助用户使用 AWS 的存储、计算和机器学习服务快速扩展模型,同时,这也使 Metaflow 能够实现自动版本控制和实验跟踪,无需任何人为干预,开发人员可以非常方便地检查和恢复 Metaflow 的执行情况,这是所有生产级机器学习基础架构的核心。


此外,Metaflow 还绑定了一个高性能的 S3 客户端,它可以加载高达 10Gbps 的数据,加快用户的模型迭代周期。



针对通用数据处理,Metaflow 与基于 AWS 容器的计算平台 Batch 集成。开发者只需要在代码中添加一行:@batch,就可以利用无限扩展的计算集群。对于机器学习模型的训练,除了编写自己的功能,用户还可以选择使用 AWS Sagemaker,它提供了各种模型的高性能实现,其中许多支持分布式训练。


关于 Metaflow 与 AWS 集成的更多详细信息,可以查看此页面


2019 年 12 月 05 日 17:392300
用户头像
蔡芳芳 InfoQ高级编辑

发布了 586 篇内容, 共 285.4 次阅读, 收获喜欢 1853 次。

关注

评论

发布
暂无评论
发现更多内容

实现高性能MySQL,深入探索数据库索引

奔着腾讯去

数据库 数据库事务 innodb 索引 MySQL 高可用

和平精英两周年 TcaplusDB一起加油!

数据人er

数据库 nosql tencentdb TcaplusDB 和平精英

做了一个开源的在线互动教室,想分享给大家

千竹

WebRTC 在线教育 开源项目 在线课堂 互动白板

Matlab制作视频并转换成gif动态图的方法

格致君的planB

作为骨灰级MEME项目,Grin接下来会走向何方?

猫Buboo

指挥中心可视化研判分析系统搭建解决方案

13823153121

大厂面试题之计算机网络重点篇(附答案)

linux大本营

c++ Linux 网络协议 udp TCP/IP

云小课 | 玩转HiLens Studio之手机实时视频流调试代码

华为云开发者社区

华为 华为HiLens HiLens Studio EI智能体 实时视频

新垣结衣嫁了个“非典型性”程序员

小智

程序员 软件开发 日本

终于有腾讯云大神把困扰我多年的Redis(分布式锁、延时队列、位图、布隆过滤器、漏斗限流)全部讲清楚了

云流

Java 程序员 架构 面试

4月热搜:揭秘金融级人脸实名认证解决方案背后的技术硬货

百度大脑

百度

不要小看一个Redis!从头到尾全是精华,阿里Redis速成笔记太香了

程序员小毕

Java 数据库 redis 程序员 架构

浅谈虚拟偶像背后的舞蹈生成

行者AI

人工智能

仅需几行代码轻松实现第一人称行走

森友小锘

3D可视化 前端可视化 数字孪生

宅家30天,吃透这份Java高级工程师面试498题解析,成功定级阿里P7

Crud的程序员

Java spring 程序员 架构 Java高级

花重金购买的“Java面试知识点”真香,知彼知己,百战不殆

Java架构师迁哥

【建议收藏】B站上有哪些值得反复观看的Java视频教程?

格致君的planB

一篇文章带你搞懂Python中的类

格致君的planB

浅析决策树的生长和剪枝

华为云开发者社区

数据 决策树 预测模型 剪枝 过拟合

520到了,吟湿几首

花花

520 520单身福利 520 单身福利

程序员应该多久跳一次槽?怎样跳槽才是正确的跳槽?

Java架构师迁哥

阿里架构师自爆“面试指南(泰山版)”所有的成功都不是白给的

Java架构师迁哥

浅谈 Serverless 开发和应用

网易云信

Serverless

Flutter 混合开发基础

网易云信

flutter

指挥中心可视化研判分析系统搭建解决方案

13823153121

只有程序猿才能看懂的520内涵表白

三掌柜

520 520单身福利 520 单身福利

TypeScript 开发环境搭建

Emperor_LawD

typescript ts 520单身福利 520 单身福利

2021年10年后端开发程序员最新《C/C++Linux 服务器开发》学习路线总结,建议收藏

奔着腾讯去

学习路线 服务器集群 Linux服务器开发 C++后台开发 学习干货

程序员兼职网站推荐~

MY

马斯克会在熊市周期里瞄准下一个百倍币么?

猫Buboo

区块链 狗狗币

一周信创舆情观察(5.10~5.16)

统小信uos

新晋管理者都会遇到的6个问题

新晋管理者都会遇到的6个问题

Netflix开源内部Python工具Metaflow:机器学习项目部署时间从四个月缩短至7天-InfoQ