【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

在首次发布三周之后,MLflow 迎来了 0.2 版本

  • 2018-07-16
  • 本文字数:1982 字

    阅读完需:约 7 分钟

在今年的 Spark+AI 峰会上,MLflow 团队推出了 MLflow,一个开源的用于简化机器学习生命周期的平台。从首次发布到现在的三周时间里,已经有很多数据科学家和工程师对使用 MLflow 和为 MLflow 贡献代码感兴趣。MLFlow 的 GitHub 仓库已经有 180 个分支,其中有十几个贡献者提交了问题和拉取请求。此外,上周参加由该团队举办的第一次 MLflow 聚会的人数接近 100 人。

昨天,该团队正式宣布推出 MLflow 0.2 版本,这一版本包含了由内部客户和开源用户提出的一些最被期待的功能。按照 MLflow 快速入门指南给出的提示,可以使用 pip install mlflow 来安装 MLflow 0.2。以下内容将介绍该版本的主要新功能。

内置 TensorFlow 集成

MLflow 让开发者可以基于任意机器学习库进行模型训练,只要可以将它们包装在 Python 函数中,但对于常用的库,MLflow 团队希望能够提供内置的支持。该版本增加了 mlflow.tensorflow 包,借助这个包,开发者可以轻松地将 TensorFlow 模型记录到 MLflow 跟踪服务器中。在记录模型之后,可以立即将其传给受 MLflow 支持的各种部署工具(例如本地 REST 服务器、Azure ML 服务或 Apache Spark)。

以下示例显示了用户如何记录经过训练的 TF 模型,并使用内置功能和 pyfunc 抽象进行部署。

训练环境:保存训练过的的 TF 模型

复制代码
# 将 estimator 保存成 SavedModel 格式。
estimator_path = your_regressor.export_savedmodel(model_dir,
receiver_fn)
 
# 记录导出的 SavedModel。
# signature_def_key: 签名的名称,在加载 SavedModel 时使用
# 参考:
(https://www.tensorflow.org/serving/signature_defs).
# artifact_path: 保存构件的位置
mlflow.tensorflow.log_saved_model(saved_model_dir=estimator_path,
signature_def_key="predict",
artifact_path="model")

部署环境:加载 TF 模型并进行预测

复制代码
estimator_path = ... # 保存 TF 的位置
 
# 我们可以加载 TensorFlow estimator 并包装成一个 Python 函数。
# 可以使用本地文件或传进去一个 ID 加载上一次运行的构件。
pyfunc = mlflow.tensorflow.load_pyfunc(estimator_path)
 
# 将模型应用在 Pandas DataFrames 上进行预测。
predict_df = pyfunc.predict(df)

生产跟踪服务器

MLflow 0.2 增加了一个新的 mlflow server 命令,该命令将启动 MLflow 跟踪服务器的生产版本,用于跟踪和查询运行过的实验。与本地的 mlflow ui 命令不同,mlflow server 可以支持多个工作线程和基于 S3 的存储,如下所述。读者可以阅读 MLflow 文档以了解如何运行跟踪服务器。

基于 S3 的构件存储

MLflow 的一个关键功能是记录训练的输出,其中可能包括被称为“构件”的任意文件。不过,MLflow 的第一个版本仅支持将构件保存到共享的 POSIX 文件系统。MLflow 0.2 添加了对 S3 存储的支持,通过给 mlflow server 命令添加—artifact-root 参数即可。这样可以轻松地在多个云实例上运行 MLflow 训练作业并跟踪结果。以下示例说明如何启动使用 S3 存储的跟踪服务器。

在 EC2 实例上运行 MLflow 服务器:

复制代码
% hostname
ec2-11-222-333-444.us-west-2.compute.amazonaws.com
 
% mlflow server \
--file-store /mnt/persistent-disk/mlflow_data \
--artifact-root s3://my-mlflow-bucket/

MLflow 客户端:

复制代码
mlflow.set_tracking_uri("http://ec2-11-222-333-444.us-west-2.compute.amazonaws.com")
...
with mlflow.start_run():
mlflow.log_parameter("x", 1)
mlflow.log_metric("y", 2)
...
mlflow.log_artifact("/tmp/model")

其他改进

除了这些较大的功能之外,该版本还包含了一些错误和文档问题的修复。完整的变更列表可以在 CHANGELOG 中找到。读者可以在 mlflow-users@googlegroups.com 上提供更多反馈,或在 GitHub 上提交问题或补丁。要想实时讨论有关 MLflow 的问题,可以加入 MLflow 的 Slack 频道。

MLflow 的下一步会做什么?

MLflow 团队计划在 alpha 版本中继续更新 MLflow。例如,该团队正在进行的工作包括与更多库(如 PyTorch、Keras 和 MLlib)的集成,并进一步改进跟踪服务器的可用性。有关 MLflow 下一步工作的概述,可查看上周 MLflow 聚会的演示文稿,或直接观看聚会视频。

对于想要尝试托管版 MLflow 的 Databricks 用户,可以在 databricks.com/mlflow 上注册。

相关链接:

MLflow Github 地址: https://github.com/databricks/mlflow

MLflow 快速入门指南: https://mlflow.org/docs/latest/quickstart.html

如何运行跟踪服务器: https://www.mlflow.org/docs/latest/tracking.html#running-a-tracking

MLflow 2.0 变更日志: https://github.com/databricks/mlflow/blob/master/CHANGELOG.rst

MLflow Slack 频道: https://tinyurl.com/mlflow-slack

MLflow 首次聚会演示幻灯片: https://www.slideshare.net/databricks/introduction-fo-mlflow

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-07-16 06:112009

评论

发布
暂无评论
发现更多内容

怎样搭建数字人直播间?

青否数字人

数字人

谷歌 2024 新年目标曝光:一边做地表最强 AI,一边裁更多员工丨 RTE 开发者日报 Vol.132

声网

Prometheus最佳实践 Summary和Histogram

华为云开发者联盟

开发 华为云 华为云开发者联盟

一个很热的国产低代码开发平台

2D3D前端可视化开发

物联网 低代码开发平台 数字孪生 前端设计 可视化开发

虚拟数字人制作软件有哪些功能?

青否数字人

数字人

深入探析MySQL数据库:优势、版本与发展全面解读

小魏写代码

Linux 中常用的基础命令

emanjusaka

bash Linux command

鸿蒙5.0发布时间已定!鸿蒙系统上的App开发新思路

FinFish

鸿蒙 小程序生态 小程序容器 鸿蒙Next 鸿蒙5.0

微服务的拆分规范和原则

伤感汤姆布利柏

Dart代码混淆

雪奈椰子

解析Java Chassis 3中应用视角的配置管理

华为云开发者联盟

Java 微服务 开发 华为云 华为云开发者联盟

华为云低代码问答——低代码为什么这么“香”

华为云PaaS服务小智

低代码 华为云

光纤的连接

小齐写代码

奖金 30 万!OurBMC 开源大赛等你来战

OurBMC

开放原子大赛 BMC全栈技术 ourBMC 飞腾服务器故障诊断

【年后跳槽必看篇-非广告】Kafka核心知识点-第二章

派大星

Java 面试

请谨慎选择工作offer

老张

面试 求职面试 offer大厂

第37期 | GPTSecurity周报

云起无垠

轻松上手:通过阿里云PAI QuickStart微调部署Qwen-72B-Chat模型

阿里云大数据AI技术

【第七在线】智能商品计划:让供应链管理更加智能、高效

第七在线

融云全球通信网的「最后一公里体验」之战

融云 RongCloud

传统企业和数字化企业的关系及优劣势

天津汇柏科技有限公司

数字化转型 企业数字化

为什么选择 NineData 作为 MongoDB 的最佳拍档?

NineData

mongodb NineData MongoDB 数据库管理工具 MongoDB数据库

「我在淘天做技术」智能对话新纪元:百万日活对话机器人的LLM落地实践

阿里技术

招聘 对话机器人 LLM 我在淘天做技术 落地实践

Java开发中不要使用受检异常

码语者

Java 异常

基于PAI-EAS一键部署Stable Diffusion AIGC绘画

阿里云大数据AI技术

【教程】混淆Dart 代码

全国独家线下面授 | 上海 · 大规模敏捷认证LeSS实践者课程3月14-16日火热报名

ShineScrum捷行

大规模敏捷 LeSS认证 CLP认证 LeSS认证实践者

文心一言 VS 讯飞星火 VS chatgpt (185)-- 算法导论14.1 2题

福大大架构师每日一题

福大大架构师每日一题

别再因为React、Vue吵了,真的毫无新意!

伤感汤姆布利柏

玩转数据处理利器:学会使用 YAML 文件轻松处理数据

霍格沃兹测试开发学社

2023年最全盘点 :16款跨平台应用程序开发框架

Geek_2305a8

在首次发布三周之后,MLflow迎来了0.2版本_语言 & 开发_Mani Parkhe_InfoQ精选文章