【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

我们为什么构建自己的 serverless 机器学习平台,而非使用 AWS Lambda?

  • 2021-01-27
  • 本文字数:1526 字

    阅读完需:约 5 分钟

我们为什么构建自己的serverless机器学习平台,而非使用AWS Lambda?

本文最初发表于Cortex网站,经原作者 Caleb Kaiser 许可由 InfoQ 中文站翻译分享。


对于模型部署来讲,AWS Lambda 是一个很有吸引力的方案。从表面上来看,其收益是很明显的。Lambda 可以:


  • 让数据科学家和机器学习工程师在部署时无需管理基础设施

  • 在最大化可用性的同时,能将成本降到最低

  • 为定义预测 API 提供了一个简单的接口


但是,问题在于,尽管这都是 serverless 架构的收益,但是像 Lambda 这样的通用 serverless 平台通常会有一些限制,这些限制使得它并非机器学习的最理想方案。


我们亲身体会到这一点。在着手实现 Cortex 之前,我们曾经尝试通过 Lambda 运行部署。事实上,正是由于 Lambda 的不足,在一定程度上促使我们建立一个专门用于机器学习的 serverless 计算平台。

Lambda 不能部署大型的模型(比如 Transformer 模型)

现在,你可能已经读过很多关于机器学习模型增长的文章了。可以说,在很多适用于机器学习的领域,尤其是自然语言处理方面,模型正在迅速地变得越来越大。


例如,在过去几年中,Hugging Face 的 Transformers 库成为了最受欢迎的 NLP 库。从传闻中看到,用户经常在生产 API 中使用它。这个库为如下的模型提供了便利的接口:


  • GPT-2:完全训练后大约是 6GB

  • BlenderBot:完全训练后大约是 5GB

  • RoBERTa:完全训练后大于 1GB


而这仅仅是看上去比较合理的模型。有些模型,比如 T5,可能会超过 40GB,不过我承认,自己没有遇到过太多团队大规模地部署这种规模的模型。


适用于现代机器学习需求的 serverless 平台需要能部署大型的模型,但是 Lambda 做不到这一点。Lambda 限制部署包的大小为未压缩的 250MB,并将函数限制到了 30008 MB 的内存。如果你想运行任何一种最先进的语言模型,Lambda 都不是合适的可选方案。

为进行模型处理,需要 GPU/ASIC 的支持

随着模型变得越来越大,它们的资源需求也会随之增加。对我们前文所讨论的一些大模型来说,使用 GPU 推理是唯一能以接近实时延迟的速度处理它们的方式。


类似的,像 Inferentia 和 TPU 这样的 ASIC 在某些情况下正在改变模型处理的经济效益,并且随着它们的不断成熟,有潜力在更大的范围实现这一点。即使是相对比较年轻的方案,但是我们已经对某些模型的性能进行了基准测试,使用 Inferentia 的效率能提高一个数量级。


在过去,GPU/ASIC 推理被认为是相对小众的场景,但是它正在越来越多地成为机器学习工程的标准。令人遗憾的是,Lambda 并不支持它。


对大量的 Cortex 用户来说,仅凭这一点就让 Lambda 失去了将模型部署到生产环境的机会。

Lambda 处理模型的效率太低

Lambda 实例能够服务于连续的请求,但不能处理并发的请求。在处理模型的时候,这是一个大问题。


推理是一项计算成本高昂的任务,通常伴随大量的延迟(因此经常需要 GPU/ASIC)。为了防止推理成本的飙升,很重要的一点就是在分配计算资源的时候,要尽可能保持高效,同时不能对延迟产生负面影响。


在 Cortex 中,我们实现这一点的方式是提供预测前和预测后的钩子,它们可以异步执行代码。通常来讲,当一些 IO 请求(比如从数据库中调用用户信息、写入日志等)与推理函数相连接的时候,就会用到它。


这些异步钩子提供的优势在于,它允许我们在预测生成后立即释放推理所需的资源,而不必等到响应发送之后。


然而,在 Lambda 中,这是不可能实现的。


因此,如果使用 Lambda 处理模型的话,很可能会因为每个实例上闲置的资源浪费而导致过度扩展。

机器学习需要一个专门的 serverless 平台

Serverless 架构天然适合模型部署。但问题在于,我们在适用于 MLOps 的任何场景中都会遇到的问题是,机器学习的需求非常具体,使得流行的 DevOps 工具(如 Lambda)并不适用。


我们构建 Cortex 的部分使命就是构建一个平台,提供我们在 Lambda 中喜爱的易用性,同时解决 ML 基础设施的具体挑战。


原文链接:

https://www.cortex.dev/post/serverless-machine-learning-aws-lambda

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-01-27 14:341674
用户头像
张卫滨 业精于勤,行成于思。

发布了 528 篇内容, 共 351.4 次阅读, 收获喜欢 698 次。

关注

评论 1 条评论

发布
用户头像
标题应该加一个机器学习
2021-01-27 15:08
回复
没有更多了
发现更多内容

Hoo研究院|5月下半月区块链行业投资机构动向

区块链前沿News

Hoo

WEB3:什么是去中心化数据库

devpoint

分布式 去中心化 Web3.0 6月月更 InfoQ极客传媒15周年庆

3.0.0 alpha 重磅发布!九大新功能、全新 UI 解锁调度系统新能力

亚马逊云科技 (Amazon Web Services)

UI 系统 新功能 Tech 专栏

TiFlash 源码阅读(三)TiFlash DeltaTree 存储引擎设计及实现分析 - Part 1

PingCAP

数据库:高并发下的数据字段变更

C++后台开发

数据库 高并发 后端开发 Linux服务器开发 C++后台开发

软件定义汽车时代下的云原生转型实战方法论

York

容器 云原生 车联网 软件架构 6月月更

函数计算异步任务能力介绍 - 任务触发去重

阿里巴巴中间件

阿里云 云原生 函数计算 FC

Data Summit 2022 大会资料分享(共23个)

墨天轮

数据库 AI 数据仓库 数据湖 BI

一站式智能运维解决方案,企业系统的隐形守护者

云桌派

阿里云 IT 解决方案 智能运维 客户案例

2022年公共充电站运营端用户体验指数(UEI)发布

易观分析

汽车 新能源

【高并发】又一个朋友面试栽在了Thread类的stop()方法和interrupt()方法上!

冰河

并发编程 多线程 高并发 异步编程 6月月更

【Spring 学习笔记(六)】Spring Bean 后置处理器

倔强的牛角

Java spring 6月月更

用 Golang 重写 rsync(2):方案的选择

百家饭隐私计算平台创业者

c golang

想做自助洗车不知道怎么加盟?

共享电单车厂家

自助洗车加盟

Seata 企业版正式开放公测

阿里巴巴中间件

阿里云 云原生 seata

多云管理平台和运维管理平台有什么区别?两者一样吗?

行云管家

云计算 多云管理 云管理

百问百答第41期:应用性能探针监测原理-Java探针

博睿数据

智能运维 博睿数据 性能检测

低代码开发是新瓶装老酒吗?

菜根老谭

GraphX 图计算实践之模式匹配抽取特定子图

NebulaGraph

图数据库 知识图谱 Nebula Graph

云计算运维需要经常上夜班吗?需要倒班吗?

行云管家

云计算 运维 IT运维

隐藏在 graph-ocean 背后的星辰大海

NebulaGraph

ORM框架 图数据库 知识图谱 Nebula Graph

无人24小时自助洗车代理怎么做

共享电单车厂家

自助洗车加盟 自助洗车代理

淘金家园NFT链游系统开发逻辑分析

开发微hkkf5566

IET技能调研首次落地亚洲国家 为阿联酋工程技术发展提供洞察

E科讯

大数据培训Linux常用命令总结分享

@零度

大数据 Linux

分布式数据库下子查询和 Join 等复杂 SQL 如何实现?

TDengine

数据库 tdengine 时序数据库

工赋开发者社区 | 风口上的低代码,技术人需要考虑哪些?

工赋开发者社区

低代码 低代码开发 低代码开发平台

没有行业经验能否加盟自助洗车

共享电单车厂家

自助洗车加盟

彰显个性│github和gitlab之自定义首页样式

自定义 主题 6月月更

如何挑选合适的共享自助洗车机

共享电单车厂家

自助洗车机 自助洗车机价格

哈希彩hash竞猜系统开发逻辑游戏玩法(源代码)

开发微hkkf5566

我们为什么构建自己的serverless机器学习平台,而非使用AWS Lambda?_架构_Caleb Kaiser_InfoQ精选文章