GMTC深圳站售票最后一周,点击查看最新日程>> 了解详情
写点什么

亚马逊正在重塑 MLOps

  • 2021 年 11 月 25 日
  • 本文字数:2899 字

    阅读完需:约 10 分钟

亚马逊正在重塑MLOps

作者 | Vishnu Prathish

译者 | 王强

策划 | 冬梅


本文最初发布于 Medium 网站,经原作者授权由 InfoQ 中文站翻译并分享。


众所周知,在三大云提供商中 AWS 拥有最丰富的机器学习能力组合。随着 Sagemaker Studio 于 2020 年初公开发布,他们创建了一个全集成的 ML 开发环境——这是业界首创。


在所有 ML 产品的中心锚定一个 IDE 是一个明智的举动——只要你的相关服务正确地填补了关键运维层面的空白。如果一切顺利,亚马逊将有机会一劳永逸地重塑行业中机器学习的面貌。


甚至在 Sagemaker Studio 之前,AWS 就有了一些针对 MLOps 的服务。但是,Re:invent 2020 更进一步。他们发布了一系列产品 / 服务,填补了大多数已知的空白。


现在他们做得怎么样?他们是否为正确的受众构建了正确的工具?这个问题还需要几年时间才能得出答案。但是 AWS 肯定在这场竞赛中处于领先位置。现在,我们来研究一些关键的新服务,从中了解 AWS 在这场游戏中的优势所在。

AWS 的现有 MLOps 套件


亚马逊的现有产品完全基于 Sagemaker Studio。它为 ML 开发提供了业内首创的集成开发环境。下面介绍一些基于它实现的功能,这些功能让这个平台颇具吸引力:


  • Sagemaker Studio notebooks 提供无服务器的 Jupyter 笔记本代替你的本地笔记本。它还支持本地模式。但我强烈建议你围绕中心化笔记本设置构建开发环境。

  • Sagemaker Autopilot 将 AutoML 引入了 AWS,从而消除了 ML 流程中的所有繁重工作。

  • Sagemaker Experiments 允许你保存和跟踪你的训练实验。它还允许将一个模型与另一个模型对比,从而允许用户从实验结果表中手动选择最佳模型。

  • Sagemaker Model tuning 允许你利用云来自动执行超参数优化。

  • Multimodel endpoints 能大大降低推理成本。

  • Model monitor 能帮助你跟踪生产中的指标,从而轻松跟踪模型漂移。

2021 年有什么新变化?


尽管 AWS 是 ML 服务的运维提供商,但它仍然不能声称自己拥有用于所有机器学习目的的,打通的开发环境。MLOps 在几个领域存在重大差距。


没有连贯的 CI/CD 管道可以将它们连在一起。没有这样的管道,感觉用户在使用一系列不同的服务。机器学习过程各个阶段(数据准备、训练、验证、推理、监控)的相关产品也还不完整。


但这种情况正在改变。随着 re:invent 2020 和之前发布的一些新服务的出现,AWS 在今年已经填补了大部分空白,而其他多数提供商则远远落后。


下面是一些例子。

Data Wrangler:零代码数据准备


AWS Sagemaker Data Wrangler 提供了一种干净的 Jupyter 风格的 IDE,用于机器学习数据准备。它直接建立在 Sagemaker Studio 上,因此利用了 Studio 的所有强大功能(比如它的数据可视化)。


即使从技术上讲这是一种无代码工具,但 Data Wrangler 还是可以使用代码自定义的。你可以将 300 多种内置的自动转换应用于你的训练数据。你只需单击即可将工作流程导出到 Sagemaker 笔记本并构建就地模型。它还直接支持多个数据存储,包括 Snowflake、MongoDB 和 Databricks。


Data Wrangler 解决了亚马逊在 ML 数据准备方面的巨大空白。他们声称,以这种方式简化数据准备工作可以大大减少用户花费在数据准备上的时间。

Sagemaker DataBrew:同样的工具,但做法不同



Data Brew 也是无代码数据准备工具。但这两种工具面向的是两类不同的受众。Data Wrangler 专门针对 ML,而 Data Brew 专注在通用探索性数据分析(EDA)上。另外,Data Brew 是一个以 UI 为中心的工具。


EDA 通常是 ML 的先决条件,因此它们完全可以同时使用。Data Brew 的一键分析和精心设计的界面(适合不会编写代码的用户)让作业变得更加简单明了。


两种工具都可以用来完成特征工程。但是只有 Data Wrangler 支持将特征空间导出到 AWS Feature Store,所以更合适一些。


另一个空白,填补完毕。

AWS Feature Store:大规模特征工程


这是一个重要的发布,解决了关键的 特征工程缺失 的问题。许多机器学习实践在脱机(批处理)和在线(实时)特征工程之间存在差异。复杂的特征工程转换和在批处理期间构建的新特征很难很好地转换为推理 / 预测管道。


Feature Store 在这两点之间放置了一个专有的针对特征空间的存储库来解决这一问题。训练期间你在 Sagemaker Studio 中对原始数据所做的所有操作都可以导出到 Feature Store 中,并且可以保证在推理过程中可以正确地复制这些数据。


除了解决这个在线 - 离线问题外,它还支持特征可发现、共享和特征重用。它的设计还考虑了延迟——这是大规模场景中必须做的。

Sagemaker Pipelines:机器学习流程的 CI/CD


对我来说,这项服务是本年度最重要的运维发布。


尽管可扩展 ML 的重要先决条件是可靠的 CI/CD 流程 / 框架,但之前并没有好用的产品选项。大家要么用的是没那么理想的 MLOps 流程,要么建立了自己的 CI/CD 版本。


ML 的自制 CI/CD 框架存在的问题是它们无法推广,因此无法轻松开源。框架不可避免地要在代码中写入许多领域知识——既是为了缩短开发时间,也是为了与现有服务更好地集成。AWS 打算通过用于 ML 的通用 CI/CD 框架解决这一问题。


Sagemaker Pipelines 允许你创建、可视化和管理 ML 工作流。它使你能够创建单独的开发和生产环境并进行跟踪。环境允许你进行工件升级。它还带有一个模型注册表,可让你跟踪和选择正确的部署模型。


这一管道的一个不太明显的效果是,它还将其他所有用于 ML 的 Sagemaker 服务编织在一起。这为 AWS 带来了明显的优势,因为它可以实现真正的端到端 ML。

re:invent 的其他相关内容

Sagemaker Clarify:

跨 e2e Sagemaker 工作流的偏见检测。对于 B2C 公司而言这是一大优势。

SageMaker 调试器的改进

训练期间对资源利用情况进行监视和深度 profiling。特别是在深层神经网络上。

边缘机器学习

Sagemaker edge manager 基于 AWS Neo 之上,引入了边缘设备的模型管理。如果你在物联网行业,它会非常有用。

数据库 ML 功能

虽然不太算是 MLOps,但亚马逊新的数据库 ML 服务确实属于一个共同的主题——建立一个平稳的生产级 ML 流程,从而完全消除了对运维的需求。


  • Amazon Redshift ML:将 Sagemaker Autopilot 集成到 Amazon Redshift 中

  • Amazon Neptune ML:集成 Graph ml

  • Amazon Aurora ML:使用 SQL 查询将 ML 直接集成到 Postgres 中。

  • Amazon Athena ML:在 Athena 上提供经过预训练的模型。

竞争对手的情况?

Azure Machine Learning 和 Google Cloud AI platform 是排名靠前的云提供商中的两家头部 MlOps 提供商。两者都具有强大的管道和 CI/CD 功能。但是,Google AI 管道仍处于测试阶段,而其 AWS 竞品已经具备通用性。Azure Machine Learning Studio 感觉与 Sagemaker 非常相似,但并没有提供那么多服务。


其他提供商所用的模式并没有在中心包含集成的 IDE。Azure ML Studio 似乎在这方面做了尝试。但它在功能集方面局限很大。


与其他头部提供商相比,亚马逊确实投入了更多资源来提供更好的数据科学运维解决方案。这样是否可以让他们牢牢地把持最集成的 MLOps 套件的领先地位?我想是这样。亚马逊在开发云解决方案方面具有 3 到 5 年的领先优势(或更多?这里我找不到参考数据)。但是,现在预测谁将赢得 MLOps 竞赛还为时过早。


原文链接:

https://medium.com/analytics-vidhya/amazon-is-reinventing-mlops-57f36c0b2d0a

2021 年 11 月 25 日 15:084
用户头像

发布了 304 篇内容, 共 87.3 次阅读, 收获喜欢 409 次。

关注

评论

发布
暂无评论
发现更多内容

为什么说混合云是新基建的流行架构?

博文视点Broadview

你的同事是你的竞争对手吗?

石云升

战略思考 职场经验 6月日更

架构抉择之分合矩阵

异想的芦苇

架构·

react源码解析3.react源码架构

全栈潇晨

React React Hooks react源码

chia奇亚挖矿系统开发案例介绍丨chia奇亚挖矿源码功能

系统开发咨询1357O98O718

Spring Cloud Alibaba 实战

Damon

微服务 SpringCloud Alibaba 6月日更

《面试官:谈谈你对索引的认知》系列之B+树

架构精进之路

MySQL 索引结构 6月日更

基于开源Tars的动态负载均衡实践

vivo互联网技术

负载均衡 TARS

Java 中 HashSet 的 removeAll 性能分析

落日楼台H

Java 性能 HashSet removeAll 集合删除

项目又延期了

escray

学习 极客时间 朱赟的技术管理课 6月日更

[万字总结] 一文吃透 Webpack 核心原理

范文杰

前端 webpack 6月日更

Grpc-go源码刨析

王博

基于MySQL Binlog 实现可配置的异构数据同步

王博

书单 | 5月畅销新书情报,你最Pick哪一本?

博文视点Broadview

火爆全网的迁移学习简明手册全面更新,重磅出版上市!

博文视点Broadview

Flink+Alink,当大数据遇见机器学习!

博文视点Broadview

自适应微服务治理背后的算法

万俊峰Kevin

Go 微服务 自适应 服务治理

【Flutter 专题】115 图解自定义 View 之 Canvas (四) drawParagraph

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 6月日更

NQI质量基础设施“一站式”服务平台开发解决方案

源中瑞-龙先生

开发 解决方案 NQI 质量基础设施“一站式”

拉仇恨!webhook + 企业微信给同事做了个代码提交监听工具

程序员内点事

Java GitHub 编程 程序员 代码

云原生中定时弹性伸缩之CronHPA实战

雪雷

6月日更

【Vue2.x源码学习】第一篇-源码环境搭建

Brave

源码 vue2 6月日更

C 语言面向对象的封装方式

实力程序员

图表示学习+图神经网络:破解AI黑盒,揭示万物奥秘的钥匙!

博文视点Broadview

网络攻防学习笔记 Day32

穿过生命散发芬芳

网络攻防 6月日更

Rust从0到1-泛型-trait

rust 泛型 Trait generic

云网络开山之作,揭秘云上高速公路的十年技术成果!

博文视点Broadview

Chia奇亚云算力挖矿系统开发成功案例丨Chia奇亚挖矿源码成品

系统开发咨询1357O98O718

40 图|硬核解析用 Mac M1 玩转 SpringCloud

悟空聊架构

Spring Cloud Mac SpringCloud Alibaba m1 6月日更

总结笔记 Datawhale-23期数据挖掘-心跳信号分类预测

万里无云万里天

数据挖掘 6月日更 Datawhale

anyRTC SDK 5月迭代:优化自定义加密功能,让通信更安全

anyRTC开发者

音视频 WebRTC sdk

数据cool谈(第2期)寻找下一代企业级数据库

数据cool谈(第2期)寻找下一代企业级数据库

亚马逊正在重塑MLOps-InfoQ