阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

Uber 推出 PyML:加速机器学习开发的秘密武器

  • 2018-11-09
  • 本文字数:1571 字

    阅读完需:约 5 分钟

Uber推出PyML:加速机器学习开发的秘密武器

Uber 一直是加速真实世界机器学习解决方案实现最活跃的公司之一。就在今年,Uber 推出了 Michelangelo、Pyro.ai 和 Horovod 等技术,这些技术以现实世界中机器学习解决方案关键构建块为重点。近日,Uber 推出了一个机器学习栈,这一次是为了缩短从实验到产品的周期。PyML 是一个库,能够以与生产运行时兼容的方式快速开发 Python 应用程序。


PyML 试图解决的问题是大规模机器学习应用中无处不在的挑战之一。通常,数据科学家用于原型模型的工具和框架与相应的生产运行时之间存在明显的不匹配。例如,对于数据科学家来说,使用基于 python 的框架(如 PyTorch 或 Keras)来生成实验模型,然后调整这些模型使其适合于像 Apache Spark ML 管道这样具有特定约束的运行时,这是非常常见的。机器学习技术专家把这个问题称为灵活性和资源效率之间的取舍问题。就 Uber 而言,数据科学家正在使用 Python 机器学习框架构建模型,这些框架需要由 Michelangelo 团队进行重构,以匹配 Apache Spark 管道的约束。


克服这一限制意味着扩展 Michelangelo 的功能,以支持使用主流机器学习框架创建的模型,同时保持训练和优化模型的一致性。

PyML 简介

Uber PyML 的目标是简化机器学习应用程序的开发,弥合实验和生产运行时之间的差距。为了实现这一点,PyML 以下面三个方面为重点:


  • 提供机器学习模型的标准契约。

  • 实现使用 Docker 容器打包和部署机器学习模型的模型一致性。

  • 把集成了 Michelangelo 的运行时用于在线和离线预测模型。


下图说明了 PyML 的基本架构原则。


标准机器学习契约

PyML 模型可以使用不同的机器学习框架编写,如 TensorFlow、PyTorch 或 Scikit-Learn。模型可以使用的数据集类型主要有两种:DataFrames 和 Tensors。DataFrames 存储表格式结构化数据,而 Tensors 存储多维命名数组。在创建模型之后,把它们调整为标准的 PyML 契约定义,这本质上是一个从抽象类 DataFrameModel 或 TensorModel 继承的类。在这两种情况下,用户只需要实现两个方法:一个是加载模型参数的构造函数,另一个是接受并返回 DataFrames 或 Tensors 的 predict()方法。


打包和部署

在创建 PyML 模型之后,可以使用一致的结构把它们打包到 Docker 容器中。PyML 引入了一种基于四个基本构件的标准部署格式:



使用这种结构,开发人员可以使用以下代码打包和部署 PyML 模型。PyML Docker 镜像将包含模型和所有相应的依赖项。模型将可以立即在 Michelangelo 控制台执行。



在线和离线预测

PyML 支持批处理(离线)和在线执行模型进行预测。离线预测被建模为 PySpark 上的抽象。在那种情况下,PyML 用户只需提供一个 SQL 查询,与模型期望输入相匹配的列名和类型,以及存储预测输出的目标 Hive 表的名称。在后台,PyML 使用与在线模型相同的镜像和 Python 环境启动了一个容器化 PySpark 任务,以确保离线和在线预测之间没有区别。执行离线预测相对简单,如下面的代码所示:



PyML 模型的标准双操作(init、predict)契约简化了在线预测的实现。PyML 通过启用 Docker 容器的轻量级 gRPC 接口实现了在线预测,Docker 容器由一个如下图所示的常见的在线预测服务使用。根据请求,在线预测服务将通过 Mesos 的 API 以嵌入式 Docker 容器的形式启动相应的特定于 PyML 模型的 Docker 镜像。当启动容器时,它启动 PyML RPC 服务器,并开始监听来自在线预测服务的 Unix 域套接字上的预测请求。



PyML 通过弥合实验和运行时环境之间的差距,解决了大型机器学习应用程序中其中一个最重要的挑战。除了特定的技术贡献外,PyML 的架构可以适应不同的技术栈,可以作为组织开始机器学习旅程的重要参考。


关于 PyML 的更多技术细节,请查阅 Uber 技术博客:https://eng.uber.com/michelangelo-pyml/


查看英文原文:https://towardsdatascience.com/uber-introduces-pyml-their-secret-weapon-for-rapid-machine-learning-development-c0f40009a617


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-11-09 16:411113
用户头像

发布了 1008 篇内容, 共 374.3 次阅读, 收获喜欢 341 次。

关注

评论

发布
暂无评论
发现更多内容

架构实战营 - 模块 3 - 外包学生管理系统架构文档

蔸蔸

外包学生管理系统架构文档

十二万伏特皮卡丘

架构实战营

非常全面!Java的方法详解和总结,建议收藏

java小李

java基础

一篇文章告诉你什么是Spring

愚者

Java spring

2021年涌现大量低代码玩家,如何辨别低代码平台“真假”?

优秀

低代码

「从零开始学SpringBoot」—如何开始使用?

java小李

maven Sprint Boot

[架构实战营]模块三作业

xyu

#架构实战营

从培训机构出来的程序员,刚开始就18k,真的适应得来吗?

愚者

Java

阿里面试技巧来啦!!!3技术面+2交叉面+1代码面+1HR面,offer轻松拿

愚者

Java 面试 后端

Java集合框架

愚者

Java 集合

全网首发!“阿里爸爸”最新出品SpringBoot高级笔记(内部笔记!)

白亦杨

Java 编程 程序员 架构师 计算机

冲锋大厂!通过率达95%的Java面试要点来啦!

愚者

Java 面试

MySQL 基础知识+索引相关

java小李

MySQL

手慢无!(阿里内测版)SpringCloudAlibaba高级笔记全网首次公开

Java 编程 程序员 架构师 计算机

字节三面成功斩获offer,非常值得一看的500+面试题

愚者

面试 字节

21道最新Java面试题剖析(数据库+JVM+微服务+高并发)

java小李

dubbo Spirng

☕️【Java技术之旅】【AbstractQueuedSynchronizer】教你自定义实现自己的同步器

洛神灬殇

Java 并发编程 AQS 同步器

Spring Boot中常用数据库的配置

偏执

Java spring 后端

插件编排在 Apache APISIX 中的应用与实践

API7.ai 技术团队

lua 开源 网关 APISIX

全栈工程师必备技能栈,聊聊月薪两万以内都该会点啥?

java小李

jquery less

MySQL数据的备份和恢复

java小李

myqr java基础

多鲸专访拍乐云赵加雨:素质教育进化,音视频探路新风口

拍乐云Pano

阿里大出血!SpringBoot/SpringCloud全套学习脑图+面试笔记免费分享了

愚者

面试 Spring Cloud Spring Boot

下一个颠覆的领域:区块链如何影响审计行业?(上)

CECBC

多线程交替输出

愚者

Java 多线程

App 用户新体验——Agora Native SDK 3.4.0

声网

人工智能 算法

数据结构与算法全面笔记超级牛叉,你确定不进来看看???看了你绝对不后悔!!!

偏执

Java spring 后端

阿里面试必备:100个高频Spring面试题,助你一臂之力

java小李

Spring Boot Sprin

学生管理系统架构设计文档示例-模块3

小牧ah

架构实战营

来自阿里资深架构师的吐血制作,39W字千道Java一线大厂面试题手册

愚者

Java 面试

SpringBoot进阶篇

偏执

Java spring 后端

Uber推出PyML:加速机器学习开发的秘密武器_AI&大模型_Jesus Rodriguez_InfoQ精选文章