生成式AI领域的最新成果都在这里!抢 QCon 展区门票 了解详情
写点什么

在首次发布三周之后,MLflow 迎来了 0.2 版本

  • 2018-07-16
  • 本文字数:1982 字

    阅读完需:约 7 分钟

在今年的 Spark+AI 峰会上,MLflow 团队推出了 MLflow,一个开源的用于简化机器学习生命周期的平台。从首次发布到现在的三周时间里,已经有很多数据科学家和工程师对使用 MLflow 和为 MLflow 贡献代码感兴趣。MLFlow 的 GitHub 仓库已经有 180 个分支,其中有十几个贡献者提交了问题和拉取请求。此外,上周参加由该团队举办的第一次 MLflow 聚会的人数接近 100 人。

昨天,该团队正式宣布推出 MLflow 0.2 版本,这一版本包含了由内部客户和开源用户提出的一些最被期待的功能。按照 MLflow 快速入门指南给出的提示,可以使用 pip install mlflow 来安装 MLflow 0.2。以下内容将介绍该版本的主要新功能。

内置 TensorFlow 集成

MLflow 让开发者可以基于任意机器学习库进行模型训练,只要可以将它们包装在 Python 函数中,但对于常用的库,MLflow 团队希望能够提供内置的支持。该版本增加了 mlflow.tensorflow 包,借助这个包,开发者可以轻松地将 TensorFlow 模型记录到 MLflow 跟踪服务器中。在记录模型之后,可以立即将其传给受 MLflow 支持的各种部署工具(例如本地 REST 服务器、Azure ML 服务或 Apache Spark)。

以下示例显示了用户如何记录经过训练的 TF 模型,并使用内置功能和 pyfunc 抽象进行部署。

训练环境:保存训练过的的 TF 模型

复制代码
# 将 estimator 保存成 SavedModel 格式。
estimator_path = your_regressor.export_savedmodel(model_dir,
receiver_fn)
 
# 记录导出的 SavedModel。
# signature_def_key: 签名的名称,在加载 SavedModel 时使用
# 参考:
(https://www.tensorflow.org/serving/signature_defs).
# artifact_path: 保存构件的位置
mlflow.tensorflow.log_saved_model(saved_model_dir=estimator_path,
signature_def_key="predict",
artifact_path="model")

部署环境:加载 TF 模型并进行预测

复制代码
estimator_path = ... # 保存 TF 的位置
 
# 我们可以加载 TensorFlow estimator 并包装成一个 Python 函数。
# 可以使用本地文件或传进去一个 ID 加载上一次运行的构件。
pyfunc = mlflow.tensorflow.load_pyfunc(estimator_path)
 
# 将模型应用在 Pandas DataFrames 上进行预测。
predict_df = pyfunc.predict(df)

生产跟踪服务器

MLflow 0.2 增加了一个新的 mlflow server 命令,该命令将启动 MLflow 跟踪服务器的生产版本,用于跟踪和查询运行过的实验。与本地的 mlflow ui 命令不同,mlflow server 可以支持多个工作线程和基于 S3 的存储,如下所述。读者可以阅读 MLflow 文档以了解如何运行跟踪服务器。

基于 S3 的构件存储

MLflow 的一个关键功能是记录训练的输出,其中可能包括被称为“构件”的任意文件。不过,MLflow 的第一个版本仅支持将构件保存到共享的 POSIX 文件系统。MLflow 0.2 添加了对 S3 存储的支持,通过给 mlflow server 命令添加—artifact-root 参数即可。这样可以轻松地在多个云实例上运行 MLflow 训练作业并跟踪结果。以下示例说明如何启动使用 S3 存储的跟踪服务器。

在 EC2 实例上运行 MLflow 服务器:

复制代码
% hostname
ec2-11-222-333-444.us-west-2.compute.amazonaws.com
 
% mlflow server \
--file-store /mnt/persistent-disk/mlflow_data \
--artifact-root s3://my-mlflow-bucket/

MLflow 客户端:

复制代码
mlflow.set_tracking_uri("http://ec2-11-222-333-444.us-west-2.compute.amazonaws.com")
...
with mlflow.start_run():
mlflow.log_parameter("x", 1)
mlflow.log_metric("y", 2)
...
mlflow.log_artifact("/tmp/model")

其他改进

除了这些较大的功能之外,该版本还包含了一些错误和文档问题的修复。完整的变更列表可以在 CHANGELOG 中找到。读者可以在 mlflow-users@googlegroups.com 上提供更多反馈,或在 GitHub 上提交问题或补丁。要想实时讨论有关 MLflow 的问题,可以加入 MLflow 的 Slack 频道。

MLflow 的下一步会做什么?

MLflow 团队计划在 alpha 版本中继续更新 MLflow。例如,该团队正在进行的工作包括与更多库(如 PyTorch、Keras 和 MLlib)的集成,并进一步改进跟踪服务器的可用性。有关 MLflow 下一步工作的概述,可查看上周 MLflow 聚会的演示文稿,或直接观看聚会视频。

对于想要尝试托管版 MLflow 的 Databricks 用户,可以在 databricks.com/mlflow 上注册。

相关链接:

MLflow Github 地址: https://github.com/databricks/mlflow

MLflow 快速入门指南: https://mlflow.org/docs/latest/quickstart.html

如何运行跟踪服务器: https://www.mlflow.org/docs/latest/tracking.html#running-a-tracking

MLflow 2.0 变更日志: https://github.com/databricks/mlflow/blob/master/CHANGELOG.rst

MLflow Slack 频道: https://tinyurl.com/mlflow-slack

MLflow 首次聚会演示幻灯片: https://www.slideshare.net/databricks/introduction-fo-mlflow

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2018-07-16 06:112004

评论

发布
暂无评论
发现更多内容

融合与共生之下,区块链都能“+”什么?

CECBC

区块链 大数据

第四周 系统架构学习总结

蓝黑

极客大学架构师训练营

第四周总结

_

极客大学架构师训练营 第四周总结

一个草根的日常杂碎(10月11日)

刘新吾

随笔杂谈 生活记录 社会百态

我们可以把Adapter精简到什么地步

mengxn

RecyclerView BetterAdapter Adapter

SpringBoot-技术专题-多环境下maven打包

洛神灬殇

当我们在谈论跨平台的时候 ——— 我们在说什么

iHTC

跨平台

随想

Nydia

优质数据库管理工具盘点,看看这三个软件的区别

BinTools图尔兹

数据库 sql 云原生 工具 编辑器

商业模式和盈利模式的思考

iHTC

商业模式 盈利模式 地摊经济

一个草根的日常杂碎(10月10日)

刘新吾

随笔杂谈 生活记录 社会百态

你不知道的java对象序列化的秘密

程序那些事

Java java序列化 序列化的秘密

为什么学Go(二)

soolaugust

Go 语言

Apple Developer 开发者账号申请&实名认证【2020】

iHTC

Apple Developer iOS Developer 苹果实名认证

正则表达式知识总结

iHTC

正则表达式

容器技术之发展简史

阿里云基础软件团队

云原生

iOS Handle Refunds 处理退款 --- WWDC20(Session 10661)

iHTC

WWDC2020 wwdc iap 苹果退款 iOS退款

如何优化多表查询情况下的查询性能问题

迹_Jason

数据库设计 架构设计 查询优化 数据优化

【高并发】面试官:讲讲高并发场景下如何优化加锁方式?

冰河

性能优化 高并发 线程安全 同步 加锁

极客时间 - 架构师一期 - 第四周作业

_

第四周作业 架构师一期

Guava-技术专题-Cache用法介绍

洛神灬殇

Java-技术专题-Pattern类与Matcher类详解

洛神灬殇

区块链需与5G等技术打好“组合拳”

CECBC

区块链 5G

JDK14性能管理工具:jmap和jhat使用介绍

程序那些事

内存泄露 JDK14 jmap jhat

华为程序员发现孩子不是自己的,怒提离婚!女方不要孩子!绿他的竟然是个酒吧混混!

程序员生活志

华为 程序员

每个数据科学家都应该知道的5个概念

计算机与AI

学习 数据科学

CECBC区块链专委会副主任吴桐主讲全国社保基金数字货币讲座

CECBC

区块链 数字货币

JVM系列笔记 - 寄存器

朱华

JVM

通俗易懂和你聊聊寄存器那些事(精美图文)

cxuan

后端 计算机 汇编

面经手册 · 第13篇《除了JDK、CGLIB,还有3种类代理方式?面试又卡住!》

小傅哥

Java 字节码编程 asm 动态代理 cglib

一个草根的日常杂碎(10月9日)

刘新吾

随笔杂谈 生活记录 社会百态

在首次发布三周之后,MLflow迎来了0.2版本_语言 & 开发_Matei Zaharia_InfoQ精选文章