NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

在首次发布三周之后,MLflow 迎来了 0.2 版本

  • 2018-07-16
  • 本文字数:1982 字

    阅读完需:约 7 分钟

在今年的 Spark+AI 峰会上,MLflow 团队推出了 MLflow,一个开源的用于简化机器学习生命周期的平台。从首次发布到现在的三周时间里,已经有很多数据科学家和工程师对使用 MLflow 和为 MLflow 贡献代码感兴趣。MLFlow 的 GitHub 仓库已经有 180 个分支,其中有十几个贡献者提交了问题和拉取请求。此外,上周参加由该团队举办的第一次 MLflow 聚会的人数接近 100 人。

昨天,该团队正式宣布推出 MLflow 0.2 版本,这一版本包含了由内部客户和开源用户提出的一些最被期待的功能。按照 MLflow 快速入门指南给出的提示,可以使用 pip install mlflow 来安装 MLflow 0.2。以下内容将介绍该版本的主要新功能。

内置 TensorFlow 集成

MLflow 让开发者可以基于任意机器学习库进行模型训练,只要可以将它们包装在 Python 函数中,但对于常用的库,MLflow 团队希望能够提供内置的支持。该版本增加了 mlflow.tensorflow 包,借助这个包,开发者可以轻松地将 TensorFlow 模型记录到 MLflow 跟踪服务器中。在记录模型之后,可以立即将其传给受 MLflow 支持的各种部署工具(例如本地 REST 服务器、Azure ML 服务或 Apache Spark)。

以下示例显示了用户如何记录经过训练的 TF 模型,并使用内置功能和 pyfunc 抽象进行部署。

训练环境:保存训练过的的 TF 模型

复制代码
# 将 estimator 保存成 SavedModel 格式。
estimator_path = your_regressor.export_savedmodel(model_dir,
receiver_fn)
 
# 记录导出的 SavedModel。
# signature_def_key: 签名的名称,在加载 SavedModel 时使用
# 参考:
(https://www.tensorflow.org/serving/signature_defs).
# artifact_path: 保存构件的位置
mlflow.tensorflow.log_saved_model(saved_model_dir=estimator_path,
signature_def_key="predict",
artifact_path="model")

部署环境:加载 TF 模型并进行预测

复制代码
estimator_path = ... # 保存 TF 的位置
 
# 我们可以加载 TensorFlow estimator 并包装成一个 Python 函数。
# 可以使用本地文件或传进去一个 ID 加载上一次运行的构件。
pyfunc = mlflow.tensorflow.load_pyfunc(estimator_path)
 
# 将模型应用在 Pandas DataFrames 上进行预测。
predict_df = pyfunc.predict(df)

生产跟踪服务器

MLflow 0.2 增加了一个新的 mlflow server 命令,该命令将启动 MLflow 跟踪服务器的生产版本,用于跟踪和查询运行过的实验。与本地的 mlflow ui 命令不同,mlflow server 可以支持多个工作线程和基于 S3 的存储,如下所述。读者可以阅读 MLflow 文档以了解如何运行跟踪服务器。

基于 S3 的构件存储

MLflow 的一个关键功能是记录训练的输出,其中可能包括被称为“构件”的任意文件。不过,MLflow 的第一个版本仅支持将构件保存到共享的 POSIX 文件系统。MLflow 0.2 添加了对 S3 存储的支持,通过给 mlflow server 命令添加—artifact-root 参数即可。这样可以轻松地在多个云实例上运行 MLflow 训练作业并跟踪结果。以下示例说明如何启动使用 S3 存储的跟踪服务器。

在 EC2 实例上运行 MLflow 服务器:

复制代码
% hostname
ec2-11-222-333-444.us-west-2.compute.amazonaws.com
 
% mlflow server \
--file-store /mnt/persistent-disk/mlflow_data \
--artifact-root s3://my-mlflow-bucket/

MLflow 客户端:

复制代码
mlflow.set_tracking_uri("http://ec2-11-222-333-444.us-west-2.compute.amazonaws.com")
...
with mlflow.start_run():
mlflow.log_parameter("x", 1)
mlflow.log_metric("y", 2)
...
mlflow.log_artifact("/tmp/model")

其他改进

除了这些较大的功能之外,该版本还包含了一些错误和文档问题的修复。完整的变更列表可以在 CHANGELOG 中找到。读者可以在 mlflow-users@googlegroups.com 上提供更多反馈,或在 GitHub 上提交问题或补丁。要想实时讨论有关 MLflow 的问题,可以加入 MLflow 的 Slack 频道。

MLflow 的下一步会做什么?

MLflow 团队计划在 alpha 版本中继续更新 MLflow。例如,该团队正在进行的工作包括与更多库(如 PyTorch、Keras 和 MLlib)的集成,并进一步改进跟踪服务器的可用性。有关 MLflow 下一步工作的概述,可查看上周 MLflow 聚会的演示文稿,或直接观看聚会视频。

对于想要尝试托管版 MLflow 的 Databricks 用户,可以在 databricks.com/mlflow 上注册。

相关链接:

MLflow Github 地址: https://github.com/databricks/mlflow

MLflow 快速入门指南: https://mlflow.org/docs/latest/quickstart.html

如何运行跟踪服务器: https://www.mlflow.org/docs/latest/tracking.html#running-a-tracking

MLflow 2.0 变更日志: https://github.com/databricks/mlflow/blob/master/CHANGELOG.rst

MLflow Slack 频道: https://tinyurl.com/mlflow-slack

MLflow 首次聚会演示幻灯片: https://www.slideshare.net/databricks/introduction-fo-mlflow

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-07-16 06:112014

评论

发布
暂无评论
发现更多内容

zabbix实战指南(1)

橙子冰

zabbix

Kafka系列8:一网打尽常用脚本及配置,宜收藏落灰!

z小赵

大数据 kafka 实时计算

AutoConfigurationImportSelector到底怎么初始化

编号94530

Java spring Spring Boot import

算法:时间复杂度和空间复杂度

shirley

算法 时间复杂度

眼前搁座金山也看不见

池建强

搜索引擎 学习

IDEA 插件开发实战

李孟聊AI

Java 工具 IDEA 插件 idea插件

Oracle误删数据闪回

阡陌r

spring-data-redis -- 一次执行链路的分析

常清静

Java spring springdataredis

Git 多用户多仓库配置 windows10

halapano

git

奈学教育:分布式架构,刚性事务-2PC必须注意的问题及3PC详细解说

奈学教育

分布式架构 2PC 3PC

重学 Java 设计模式:实战建造者模式

小傅哥

设计模式 小傅哥 重构 代码质量 优化代码

MySQL慢查询优化(线上案例调优)

NotFound9

MySQL 开源 架构 运维 编程语言

分支管理模式

wiflish

git

七年老程序员面试经历

代码诗人

团队快速扩张时期的组织架构演进

Taylor

团队管理 团队协作 团队 团队组织

一文道尽 Excel 的 Criterion

张利东

Excel

python实现·十大排序算法之堆排序(Heap Sort)

南风以南

Python 排序算法 堆排序

游戏夜读 | 游戏代码之道

game1night

原创 | 使用JUnit、AssertJ和Mockito编写单元测试和实践TDD (九)测试驱动开发(TDD)

编程道与术

Java 编程 软件测试 TDD 单元测试

ARTS week 1

锈蠢刀

ES 操作之批量写-BulkProcessor 原理浅析

常清静

Java elasticsearch 后端

变则通,通则久 —— 读《谁动了我的奶酪?》

YoungZY

读书 读书感悟

zabbix 实战指南(2)

橙子冰

zabbix

Linux 终端下记不住命令的使用方法?这个开源项目帮你解决。

JackTian

Linux 开源 运维 操作系统 命令

这么多年了,QQ没发现这个问题吗?

BabyKing

JavaScript 基础拾遗 —— this 的前世今生

hq

Java 学习 大前端

写给产品经理的信(3):抗压能力需要多强?

punkboy

生涯规划 产品经理 进阶 压力 工作方式

回“疫”录(25):被颜色攻占的地方

小天同学

疫情 回忆录 现实纪录 纪实

在 Go 中使用并发编程 - 第一部分

TuringTuring

并发编程 线程模型 Go 语言

ARTS - Week 1

Khirye

ARTS 打卡计划

这个开源神器可快速帮你安装 MacOS 虚拟机!

JackTian

macos GitHub Linux 操作系统 虚拟机

在首次发布三周之后,MLflow迎来了0.2版本_语言 & 开发_Matei Zaharia_InfoQ精选文章