NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

亚马逊正在重塑 MLOps

  • 2021-11-25
  • 本文字数:2899 字

    阅读完需:约 10 分钟

亚马逊正在重塑MLOps

作者 | Vishnu Prathish

译者 | 王强

策划 | 冬梅


本文最初发布于 Medium 网站,经原作者授权由 InfoQ 中文站翻译并分享。


众所周知,在三大云提供商中 AWS 拥有最丰富的机器学习能力组合。随着 Sagemaker Studio 于 2020 年初公开发布,他们创建了一个全集成的 ML 开发环境——这是业界首创。


在所有 ML 产品的中心锚定一个 IDE 是一个明智的举动——只要你的相关服务正确地填补了关键运维层面的空白。如果一切顺利,亚马逊将有机会一劳永逸地重塑行业中机器学习的面貌。


甚至在 Sagemaker Studio 之前,AWS 就有了一些针对 MLOps 的服务。但是,Re:invent 2020 更进一步。他们发布了一系列产品 / 服务,填补了大多数已知的空白。


现在他们做得怎么样?他们是否为正确的受众构建了正确的工具?这个问题还需要几年时间才能得出答案。但是 AWS 肯定在这场竞赛中处于领先位置。现在,我们来研究一些关键的新服务,从中了解 AWS 在这场游戏中的优势所在。

AWS 的现有 MLOps 套件


亚马逊的现有产品完全基于 Sagemaker Studio。它为 ML 开发提供了业内首创的集成开发环境。下面介绍一些基于它实现的功能,这些功能让这个平台颇具吸引力:


  • Sagemaker Studio notebooks 提供无服务器的 Jupyter 笔记本代替你的本地笔记本。它还支持本地模式。但我强烈建议你围绕中心化笔记本设置构建开发环境。

  • Sagemaker Autopilot 将 AutoML 引入了 AWS,从而消除了 ML 流程中的所有繁重工作。

  • Sagemaker Experiments 允许你保存和跟踪你的训练实验。它还允许将一个模型与另一个模型对比,从而允许用户从实验结果表中手动选择最佳模型。

  • Sagemaker Model tuning 允许你利用云来自动执行超参数优化。

  • Multimodel endpoints 能大大降低推理成本。

  • Model monitor 能帮助你跟踪生产中的指标,从而轻松跟踪模型漂移。

2021 年有什么新变化?


尽管 AWS 是 ML 服务的运维提供商,但它仍然不能声称自己拥有用于所有机器学习目的的,打通的开发环境。MLOps 在几个领域存在重大差距。


没有连贯的 CI/CD 管道可以将它们连在一起。没有这样的管道,感觉用户在使用一系列不同的服务。机器学习过程各个阶段(数据准备、训练、验证、推理、监控)的相关产品也还不完整。


但这种情况正在改变。随着 re:invent 2020 和之前发布的一些新服务的出现,AWS 在今年已经填补了大部分空白,而其他多数提供商则远远落后。


下面是一些例子。

Data Wrangler:零代码数据准备


AWS Sagemaker Data Wrangler 提供了一种干净的 Jupyter 风格的 IDE,用于机器学习数据准备。它直接建立在 Sagemaker Studio 上,因此利用了 Studio 的所有强大功能(比如它的数据可视化)。


即使从技术上讲这是一种无代码工具,但 Data Wrangler 还是可以使用代码自定义的。你可以将 300 多种内置的自动转换应用于你的训练数据。你只需单击即可将工作流程导出到 Sagemaker 笔记本并构建就地模型。它还直接支持多个数据存储,包括 Snowflake、MongoDB 和 Databricks。


Data Wrangler 解决了亚马逊在 ML 数据准备方面的巨大空白。他们声称,以这种方式简化数据准备工作可以大大减少用户花费在数据准备上的时间。

Sagemaker DataBrew:同样的工具,但做法不同



Data Brew 也是无代码数据准备工具。但这两种工具面向的是两类不同的受众。Data Wrangler 专门针对 ML,而 Data Brew 专注在通用探索性数据分析(EDA)上。另外,Data Brew 是一个以 UI 为中心的工具。


EDA 通常是 ML 的先决条件,因此它们完全可以同时使用。Data Brew 的一键分析和精心设计的界面(适合不会编写代码的用户)让作业变得更加简单明了。


两种工具都可以用来完成特征工程。但是只有 Data Wrangler 支持将特征空间导出到 AWS Feature Store,所以更合适一些。


另一个空白,填补完毕。

AWS Feature Store:大规模特征工程


这是一个重要的发布,解决了关键的 特征工程缺失 的问题。许多机器学习实践在脱机(批处理)和在线(实时)特征工程之间存在差异。复杂的特征工程转换和在批处理期间构建的新特征很难很好地转换为推理 / 预测管道。


Feature Store 在这两点之间放置了一个专有的针对特征空间的存储库来解决这一问题。训练期间你在 Sagemaker Studio 中对原始数据所做的所有操作都可以导出到 Feature Store 中,并且可以保证在推理过程中可以正确地复制这些数据。


除了解决这个在线 - 离线问题外,它还支持特征可发现、共享和特征重用。它的设计还考虑了延迟——这是大规模场景中必须做的。

Sagemaker Pipelines:机器学习流程的 CI/CD


对我来说,这项服务是本年度最重要的运维发布。


尽管可扩展 ML 的重要先决条件是可靠的 CI/CD 流程 / 框架,但之前并没有好用的产品选项。大家要么用的是没那么理想的 MLOps 流程,要么建立了自己的 CI/CD 版本。


ML 的自制 CI/CD 框架存在的问题是它们无法推广,因此无法轻松开源。框架不可避免地要在代码中写入许多领域知识——既是为了缩短开发时间,也是为了与现有服务更好地集成。AWS 打算通过用于 ML 的通用 CI/CD 框架解决这一问题。


Sagemaker Pipelines 允许你创建、可视化和管理 ML 工作流。它使你能够创建单独的开发和生产环境并进行跟踪。环境允许你进行工件升级。它还带有一个模型注册表,可让你跟踪和选择正确的部署模型。


这一管道的一个不太明显的效果是,它还将其他所有用于 ML 的 Sagemaker 服务编织在一起。这为 AWS 带来了明显的优势,因为它可以实现真正的端到端 ML。

re:invent 的其他相关内容

Sagemaker Clarify:

跨 e2e Sagemaker 工作流的偏见检测。对于 B2C 公司而言这是一大优势。

SageMaker 调试器的改进

训练期间对资源利用情况进行监视和深度 profiling。特别是在深层神经网络上。

边缘机器学习

Sagemaker edge manager 基于 AWS Neo 之上,引入了边缘设备的模型管理。如果你在物联网行业,它会非常有用。

数据库 ML 功能

虽然不太算是 MLOps,但亚马逊新的数据库 ML 服务确实属于一个共同的主题——建立一个平稳的生产级 ML 流程,从而完全消除了对运维的需求。


  • Amazon Redshift ML:将 Sagemaker Autopilot 集成到 Amazon Redshift 中

  • Amazon Neptune ML:集成 Graph ml

  • Amazon Aurora ML:使用 SQL 查询将 ML 直接集成到 Postgres 中。

  • Amazon Athena ML:在 Athena 上提供经过预训练的模型。

竞争对手的情况?

Azure Machine Learning 和 Google Cloud AI platform 是排名靠前的云提供商中的两家头部 MlOps 提供商。两者都具有强大的管道和 CI/CD 功能。但是,Google AI 管道仍处于测试阶段,而其 AWS 竞品已经具备通用性。Azure Machine Learning Studio 感觉与 Sagemaker 非常相似,但并没有提供那么多服务。


其他提供商所用的模式并没有在中心包含集成的 IDE。Azure ML Studio 似乎在这方面做了尝试。但它在功能集方面局限很大。


与其他头部提供商相比,亚马逊确实投入了更多资源来提供更好的数据科学运维解决方案。这样是否可以让他们牢牢地把持最集成的 MLOps 套件的领先地位?我想是这样。亚马逊在开发云解决方案方面具有 3 到 5 年的领先优势(或更多?这里我找不到参考数据)。但是,现在预测谁将赢得 MLOps 竞赛还为时过早。


原文链接:

https://medium.com/analytics-vidhya/amazon-is-reinventing-mlops-57f36c0b2d0a

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-11-25 15:082283
用户头像
李冬梅 加V:busulishang4668

发布了 816 篇内容, 共 383.5 次阅读, 收获喜欢 1003 次。

关注

评论

发布
暂无评论
发现更多内容

免费领取 | ONES 联合中国信通院发布《中国企业软件研发管理白皮书》

万事ONES

tidb-loadbalance 客户端方式软负载均衡配置实践

TiDB 社区干货传送门

数据库架构设计 数据库连接

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB 社区干货传送门

版本测评

Neuron 2.4.0发布:体验下一代工业物联网连接和管理

EMQ映云科技

UI 物联网 IoT neuron 企业号 4 月 PK 榜

即时通讯技术文集(第13期):Web端即时通讯技术精华合集 [共15篇]

JackJiang

网络编程 即时通讯 IM

AutoCAD 2024 Mac版如何设置自动保存文件为低版本?

魔仙苹果mac堡

CAD制图软件 AutoCAD 2024 Mac版 AutoCAD使用技巧 保存文件为低版本

用数据分析的方法去做dba,维护好tidb数据库。

TiDB 社区干货传送门

6.x 实践

WordPress 使用 TiDB Cloud 替换 MySQL

TiDB 社区干货传送门

迁移 实践案例 版本测评 应用适配

【Linux】之创建普通用户并禁止root用户远程登陆

A-刘晨阳

Linux 三周年连更 用户名

迁移PD坑-cdc任务全部stop

TiDB 社区干货传送门

实践案例 集群管理 故障排查/诊断

从零到跑通TPC-H:如何快速实现查询计划

MatrixOrigin

分布式数据库 MatrixOrigin MatrixOne TPC-H

PCB阻焊桥存在的DFM(可制造性)问题,华秋一文告诉你

华秋电子

Mysql 连接查询

迁移prometheus数据

TiDB 社区干货传送门

迁移 实践案例 集群管理

maya软件在建模上有什么优势?

Finovy Cloud

maya 3D软件

4 月 25 日直播预告 | 深入解读 Flink 1.17

Apache Flink

大数据 flink 实时计算

全平台数据(数据库)管理工具 DataCap 管理 Rainbond 上的所有数据库

北京好雨科技有限公司

数据库 Kubernetes 云原生 rainbond 企业号 4 月 PK 榜

优化配置Little Snitch for Mac的规则和设置

魔仙苹果mac堡

macOS防火墙软件 Little Snitch 下载 小飞贼防火墙 Little Snitch 规则

Mac人工智能图像降噪 Topaz Photo AI 安装激活教程

魔仙苹果mac堡

Topaz Photo AI下载 图像降噪 苹果mac软件下载 Topaz Photo AI mac Topaz Photo AI破解

Parallels Desktop PD 18虚拟机关闭、停止、中止和暂停操作的区别

魔仙苹果mac堡

pd虚拟机 Parallels Desktop PD18虚拟机操作

Karmada 多云容器编排引擎支持多调度组,助力成本优化

华为云开发者联盟

云原生 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

国内外主流的8款 IT 项目管理平台

PingCode

项目管理工具 PingCode 项目研发管理软件

微服务 - 注册中心和配置中心(Consul)

做梦都在改BUG

Java 微服务 注册中心 配置中心

超强版干货投递!Milvus 的部署心得、运维秘籍都在这里了!

Zilliz

Milvus Zilliz ChatGPT LLM zillizcloud

HummerRisk V1.0 开发手册(微服务版)

HummerCloud

开源 微服务 云原生安全

阿里P8推荐学习的44个微服务架构设计模式,真的太香了!

做梦都在改BUG

Java 架构 微服务 设计模式

苹果电脑臻选4K壁纸app:Dynamic Wallpaper

魔仙苹果mac堡

动态壁纸 Dynamic Wallpaper下载 苹果壁纸下载 mac壁纸一软件 高清壁纸下载

谷歌 Chrome 正式发布 WebGPU!Orillusion开源倒计时!

Orillusion

开源 WebGL 元宇宙 web3d #WebGPU

TiDB迁移、升级与案例分享(TiDB v4.0.11 → v6.5.1)

TiDB 社区干货传送门

迁移 版本升级 安装 & 部署 扩/缩容 6.x 实践

python正则 | python小知识

AIWeker

Python python小知识 三周年连更

面试官:Redis有什么持久化策略?

做梦都在改BUG

Java redis 缓存 面试 持久化

亚马逊正在重塑MLOps_AI&大模型_Vishnu Prathish_InfoQ精选文章