【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

MaaS 突破“临界点”,全栈 Serverless 化再升级,阿里云如何重塑云计算技术体系?

  • 2023-08-04
    北京
  • 本文字数:5653 字

    阅读完需:约 19 分钟

MaaS突破“临界点”,全栈Serverless化再升级,阿里云如何重塑云计算技术体系?

2009 年,飞天的第一行代码敲在了阿里云最早的办公室里,也敲在了国内云计算的里程碑上。十几年后的今天,我们仍然能够看到这股创新力量在阿里云不断汇聚,等待某一刻的爆发,而这一刻似乎已经到来。早在今年 4 月的阿里云峰会上,阿里巴巴集团董事会主席兼首席执行官、阿里云智能集团 CEO 张勇表示,目前阿里云已形成了全栈的技术服务,搭建了模型即服务(MaaS)、平台即服务(PaaS)、基础设施即服务(IaaS)三层架构。在此之后,阿里云推出了“飞天发布时刻”这一产品技术发布平台,并开始以这一平台高频地对外发布在智能时代云计算创新体系下的一系列新技术和新产品。在刚刚过去的 7 月 31 日,飞天发布时刻再次带来了一系列新产品,并引发了业内对智能时代云计算技术体系相关理念的关注。


一直以来,业界对于 MaaS 存在诸多讨论。那么,MaaS 理念之下是否实现了业务场景的适配与落地?被热议的全栈 Serverless 化做到了哪一步?对企业和开发者又有何价值?云厂商如何才能真正做到“普惠”?什么样的云计算体系架构适合智能时代?本文将针对上述问题进行探讨并寻找答案。


MaaS 理念下如何实现大模型能力产品化?


AI 浪潮下,作为大模型底层基石的云计算发生了新的变化。当前阶段,云厂商已经基本达成共识:AI 与云计算互生互融成为必然趋势,应用将大规模建立在大模型上。与此同时,业界在讨论大模型时普遍提到了一个关键词:MaaS。


MaaS 是什么?去年 11 月,阿里云在云栖大会上首次提出了 MaaS(Model-as-a-service ,模型即服务)概念。阿里云 CTO 周靖人曾对 MaaS 做了如下表述“MaaS 最底层的含义是要把模型作为重要的生产元素,围绕模型的生命周期设计产品和技术,从模型的开发入手,包括数据处理、特征工程、模型的训练和调优、模型的服务等,提供各种各样的产品和技术。”可以明确的一点是,MaaS 并非一个技术层,而是一种理念。



随着“百模大战”日趋白热化,MaaS 理念成为越来越多大厂选择的商业路径。MaaS 是否能重塑云计算改变云计算的游戏规则,目前定论还尚早。但可以肯定的是,以往的 PaaS 和 SaaS 架构都将被置于大模型的底层能力之上,大模型将成为生产要素,在各行业释放力量。


尽管大模型对未来的颠覆性影响已成为共识,但是我们仍然需要面对的现实是,国内对大模型的探索处在早期阶段,多数企业对于大模型仍然持有观望态度,原因在于其在业务场景适配与落地上存在较大难题。当各大厂正在跟随 MaaS 理念纷纷研发自己的大模型或者寻找大模型落地场景时,阿里云已经实现了大模型能力的产品化。


今年的 WAIC 大会上,阿里云通义大模型家族揭开了最新成员的面纱,基于自研的组合式生成模型 Composer 的 AI 绘画创作大模型——通义万相。其实,在这之前阿里云已先后发布了超大规模的语言模型——“通义千问”和专攻音视频生产力的 AI 产品“通义听悟”。至此,阿里云在 AI 的三大主要方向全部打通。


“面向 AI 时代,所有产品都值得用大模型重新升级。”是阿里云对大模型产业落地的判断。当所有聚光灯都打在两个月内迅速诞生的通义千问和通义万相两个大模型上时,阿里云已经同步实现了诸多产品的智能升级,通义听悟、钉钉都是其中的先行者。


通义听悟是一款面向工作和学习的 AI 助手,通义听悟强大的理解能力背后除了以自研的通义千问大模型为基座,更重要的是内置了阿里云新一代工业级语音识别模型 Paraformer,这是业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升 10 倍。最新数据显示,通义听悟在发布首月累计访问用户数 49.1w。


除此之外,通义大模型能力也足以赋能其他企业级产品。在钉钉宣布全面接入通义千问大模型的 3 个月之后,我们看到了大模型对企业级产品智能化升级的真正实力。知识库、Teambition、白板等加入 AI 能力,钉钉 12 条产品线、40 多项场景接入大模型。用户通过斜杠“/”输入自然语言,即可生成 PPT、思维导图、数据分析图表、项目看板等。在智能化升级中,钉钉将大模型深度融入到工作流程的各个环节,用户可以在钉钉上完成从沟通到协作、从创意到实现、从管理到决策的全流程并能充分感受到大模型交互与理解能力所带来的新功能、新体验。


在开发者生态层面,为进一步降低大模型使用门槛,阿里云推出国内首款大模型调用工具魔搭 GPT(ModelScopeGPT),它能接收用户指令,通过“中枢模型”一键调用魔搭社区其他的 AI 模型,大小模型协同完成复杂任务。魔搭 GPT 现已能够调用魔搭社区十多个核心 AI 模型的 API,未来随着更多模型 API 的加入,魔搭 GPT 的能力也将不断增强。构建这一模型调用工具的数据集和训练方案将会对外开放,供开发者自行使用,开发者可以根据需要对不同的大模型和小模型进行组合。值得一提的是,就在昨天,阿里云通义千问开源。AI 模型社区魔搭 ModelScope 上架两款开源模型 Qwen-7B 和 Qwen-7B-Chat,阿里云确认其为通义千问 70 亿参数通用模型和对话模型,两款模型均开源、免费、可商用。在多个权威测评中,通义千问 7B 模型取得了远超国内外同等尺寸模型的效果,成为当下业界最强的中英文 7B 开源模型。



从通义听悟到钉钉再到魔搭 GPT,我们看到阿里云在用户层面、企业层面、开发者层面实现了大模型产品化的全面布局。这也意味着,阿里云最先实现了在 MaaS 理念之下大模型与业务场景的创新落地。然而,大厂的理念再先进、产品落地再好,普通企业和开发者要想玩转 AI,尤其是在云上玩转 AI,依旧难度不小,降低 AI 开发甚至应用开发的门槛,是开发者们提出的诉求,也是云厂商最重要的功课之一。


降低 AI 开发门槛,全栈 Serverless 化,做高质量的 PaaS 层


大模型浪潮,率先将算力推至风口浪尖。据 OpenAI 测算,全球 AI 训练所用的计算量呈现指数级增长,平均每 3.43 个月便会增长一倍,目前计算量已扩大 30 万倍,远超算力增长速度。国家信息中心发布的《智能计算中心创新发展指南》显示,当前我国超过 30 个城市正在建设或提出建设智算中心,但仍然无法满足相关需求。


打造一个 AI 大模型究竟需要多少算力?据公开数据显示,ChatGPT 初始所需的算力就是 1 万块英伟达 A100,价格超过 7 亿元。后续的调优训练每天消耗算力大概是 3640PFLOPS,需要 7 至 8 个算力达 500PFLOPS 的数据中心支持,建设成本约为三、四十亿元。


然而,提供算力的所有 GPU 不能只是简单堆砌,更需要让所有算力联合起来为模型训练服务。大模型的训练和推理过程需要海量数据资源,相比于传统中央处理器 CPU,GPU 拥有上千个小型处理核心,能够同时处理大规模数据的并行计算任务,运算速度更快。凭借这些优势成为了智能计算的理想选择。但是,算力的构成并不仅仅只是 GPU 加速芯片,还需要构建包括网络互联、操作系统、深度学习框架以及相应 SDK、算法与应用程序等,形成一个完整的计算生态系统,通过体系化的技术支撑汇聚 AI 算力。


而智算服务 PAI-灵骏恰恰就能将这一体系整合。智算服务 PAI-灵骏包含的基础设施层的 RDMA 网络和融合算力集群、智算工程平台和智算资产管理以及强大的 Serverless 化的调度能力和运维管控能力等,都助力开发者摆脱堆砌算力的老路。


同时,智算服务 PAI-灵骏面向大规模深度学习及融合计算场景,一站式地提供覆盖 Al 开发全流程的工程平台和深度优化的融合算力,支撑了 10 万亿参数规模的大型模型训练。基于 PAI-灵骏智算服务,单训练任务可达万卡级别规模,训练性能可提高近 10 倍,千卡规模的线性扩展效率达 92%,极大降低 AI 开发门槛。


智算服务 PAI-灵骏本质上是一个 Serverless 化的产品,为 AI 开发新范式提供了 Serverless 化的平台支持。而在 AI 开发之外,Serverless 也已经是大家普遍认同的应用开发的范式。根据 Gartner 预测,到 2025 年将会有 50% 以上的全球企业采用 Serverless 化架构。为什么越来越多企业会使用 Serverless ?


Serverless 的核心目的是在云计算的基础上,彻底“包揽”所有的环境工作,直接提供计算服务。在 Serverless 架构下,开发者只需编写代码并上传,云平台就会自动准备好相应的计算资源,完成运算并输出结果,从而大幅简化开发运维过程。随着企业数字化进程加快,Serverless 的全托管服务、自适性弹性、按实际用量计费等特点越来越满足企业的业务需求。


Serverless 的价值不言自明,但是要想让用户用好 Serverless,单纯在应用运行时层面进行 Serverless 化是远远不够的,应用依赖的下游数据库等系统,如果没有良好的弹性,就会成为系统整体的“短板”。


全面实现 Serverless 化取决于整个研发链路上有多少云产品提供了这样的形态。阿里云是国内对 Serverless 探索最早的厂商之一,其于 2017 年推出了函数计算产品 FC,2018 年推出了 Serverless 应用引擎 SAE 和 Serverless 容器服务 ASK,2020 年开源了 Serverless Devs,2021 年阿里云 Serverless 产品能力在 Forrester 评测中拿下国内第一  ,2022 年 Serverless 应用中心发布……在去年的云栖大会上,阿里云宣布全栈 Serverless 化之后,业内都在期待相关成果。


“让云计算从资源真正变成一种能力”,阿里云一直坚定地推进全栈 Serverless 化并通过多年的 Serverless 产品创新积淀等待新的突破。


在本周一的飞天发布时刻上,阿里云陆续带来了 Serverless 领域的最新进展:函数计算 FC 与 AIGC 的创新融合、容器服务 Serverless 版(ACK Serverless)以及 Serverless 应用引擎 SAE2.0。这意味着,阿里云在全栈 Serverless 化又前进了一步。


在权威咨询机构 Forrester 发布的最新全球 FaaS 能力报告中,阿里云函数计算凭借产品能力在 40 个严苛的评分项目中拿下 24 个最高分,综合稳居领导者象限,成为国内唯一两度进入该象限的科技公司。函数计算的产品实力加速了与 AIGC 的创新落地。



面对应用开发的高门槛,阿里云函数计算整合了 AIGC 应用开发,集结经典的 AIGC 模版,5 分钟就可以完成 AIGC 应用部署,使模型托管的难度降低、效率提高。


阿里云的容器服务 Serverless 版,则是将 ACK 和 ASK 两款产品融合,在弹性能力和调度能力上实现了更大提升。例如,升级了智能弹性预测 AHPA,相比人工配置,弹性准确率提升 80%;基于库存感知调度和可用区打散调度,提高了弹性的确定性以及应用的高可用性。


全托管、免运维、高弹性是 SAE 的主要特点,本次升级的 SAE2.0 将研发运维提效 50%、应用成本下降 40% 以上并实现百毫秒级弹性伸缩,应用冷启动提效,支持缩容到 0,这对于新兴业务以及一些创新创业的公司更加友好。


我们看到,从智算服务 PAI-灵骏到全栈 Serverless 化的最新进展,都是在降低 AI 开发门槛和应用开发门槛,背后的本质是云计算技术的不断创新与发展,而云计算技术创新和发展的终极目标则是降低算力成本,让每个企业甚至每个人都能用得起、用得好算力,让计算真正成为公共服务。


创新与规模效应加持下,将“普惠”进行到底  


目前,国内大部分算力掌握在少数厂商手里,而云厂商占了很大比重。算力,在很多情况下成为了想法落地的最关键一环,是很多机构和企业迈不过去的坎。


普惠在任何行业都是具有巨大价值的事情,算力普惠更是如此。但做这件事情是有门槛的,首先就是技术创新。阿里云掌握着国内云计算核心技术体系,拥有自研软硬件一体研发系统,例如,自研 CPU 倚天 710、云数据中心处理器 CIPU 以及飞天操作系统,构建了从芯片、板卡、服务器、操作系统和上层云原生应用软件、数据库等核心云基础设施。阿里云对软硬件一体技术整合的持续大力投入所推动的算力提升、资源调度能力增强、以及细颗粒度的运营,是阿里云能够降本让利的底气所在。


让更多企业和开发者享受到云计算的红利,是阿里云的初心。


降低开发者的获取门槛是阿里云“普惠”的重要一步。今年 4 月中旬,阿里云推出了“飞天免费试用计划”,面向 1000 万云上开发者,提供核心云产品的免费试用,最长达三个月,可支持开发者构建包括业务在线、大数据类、AI 等不同类型应用,并且支持 Serverless 的开发模式。


目前该计划也推出了国际版,涵盖 50 多款产品,包括 ECS t5 实例的一年期免费试用、PolarDB 数据库永久免费试用,以及指定规格试用期满折扣续费等多种产品优惠。据悉,阿里云还将进一步扩大免费试用范围,针对学生、中小企业的专属免费试用计划也在筹备中。


成本是云计算发展的命门,在降低用户成本上,阿里云展现了最大的决心和诚意。今年的 4 月阿里云宣布核心产品价格全线下调 15%-50%,存储产品最高降价 50%。例如,弹性计算 7 代实例和倚天实例降价最高 20%,存储 OSS 深度冷归档降价 50%,网络负载均衡 SLB 降价 15%,数据库 RDS 倚天版降价最高 40%。被外界称为“阿里云有史以来规模最大的降价”。


然而,降本并不等于降价也不是价格战,而是通过产品优化和规模效应带来 IT 总成本的降低。


作为国际领先的云计算厂商,阿里云在过去的十年里持续降低云计算的“使用门槛”。其提供的算力成本下降了 80%,存储成本下降了近 90%。在不断降价的过程中,阿里云所期待的是联合更多分销商和集成商一起,扩大云的用户基数和规模,推动更多产业进一步从传统 IT 向云计算转移,提高计算资源的利用率,带动算力成本不断下降。利用技术改进、规模效应释放让利空间,价格下降又为技术改进、规模增长带来更多推力的正循环。


即便降低用户成本,但是阿里云在安全层面并不打折扣。特别是在降低企业确保业务安全稳定运行的成本上。例如,云安全中心的多云统管能力和办公安全平台的轻量版。尤其是办公安全平台的轻量版,适合中小企业使用的同时,核心功能和标准版基本一致且价格只有标准版的不到 10%。可以看出,阿里云对中小企业的关注与支持印证了其普惠理念。


写在最后


从 MaaS 理念下的大模型能力的产品化,到 PaaS 层技术迭代与积淀迸发,再到 IaaS 层创新与规模效应下的成本降低。在这些产品和理念的背后,我们看到阿里云是“一家云计算产品公司”的核心定位,并坚定走向“产品被集成”。大模型时代,企业都在探索新的商业模式和生存之道,对于企业而言,找到靠谱的合作伙伴是未来发展的重要一步,阿里云趟出了一条可能路径并走在了最前面。我们需要给先行者们更多的时间,来共同建立适合智能时代的云计算体系。

2023-08-04 15:305014

评论

发布
暂无评论
发现更多内容

手机是21世纪最成功的毒品

Neco.W

学习 提升效率 工作

redis持久化RDB与AOF

wjchenge

redis

深入理解ContextClassLoader

SkyeDance

深入理解JVM ContextClassLoader

深入理解JVM内存管理 - 方法区

SkyeDance

深入理解JVM 方法区 老年代

学习没进步?也许反馈有问题

KAMI

学习 认知提升

Java是不是慢半拍?

X.F

Java 架构 编程语言

『PyTorch』使用指定GPU的方法

kraken0

人工智能 学习 图像识别

美国黑客曝出政府惊天内幕,看区块链如何解决!

CECBC

CECBC 区块链技术 民生 不可篡改 信息公开

Hive底层执行引擎的深度剖析(免费)

奈学教育

大数据 hive

我们是活着,而不是活过

小天同学

个人感想 生活,随想 随笔杂谈 日常思考

SpringBatch系列入门之Tasklet

稻草鸟人

spring SpringBatch 批处理

产品周刊 | 第 17 期(20200531)

八味阁

产品 设计 产品经理 产品设计 产品推荐

运维日志里隐藏的安全危机,你知道怎么挖吗?听听专家怎么说

secisland

态势感知 关联分析 SOC

奈学大数据开发工程师分享787个技术,快来收割

奈学教育

大数据

收藏!如何有效实施devops?

禅道项目管理

DevOps 运维 持续集成 开发 自动化测试

原创 | 使用JUnit、AssertJ和Mockito编写单元测试和实践TDD (十四)编写测试-显示名

编程道与术

Java 编程 TDD 单元测试 JUnit

霸榜18年,作者连续20年获得微软MVP,这本SQL书凭什么成为畅销经典

图灵社区

数据库 SQL语法 sql查询

撸一串趣图,给晚上加班打个鸡血

码农神说

程序员 加班 段子

安全做到首位 统信UOS后激勃发

统小信uos

网络安全 操作系统

Docker 搭建 Postgres + pgAdmin 环境

姜雨生

Docker DevOps postgres

Vue生成AST算法的解析

djknight

Java Vue AST

面试题:教你如何吃透RocketMQ

奈学教育

架构 RocketMQ 架构设计

原创 | 使用JUnit、AssertJ和Mockito编写单元测试和实践TDD (十五)编写测试-断言\假设\使测试失效

编程道与术

Java 编程 TDD 单元测试 JUnit

CEO或业务负责人应该具备的数据分析能力

花生

工具 数据 CEO

Vim使用总结

JDoe

vim

GcExcel:比 Apache POI 速度更快、性能更高

葡萄城技术团队

Apache POI GCExcel

ARTS-week one

Jokky💫

ARTS 打卡计划

【译】业务转型是什么?

涛哥 数字产品和业务架构

业务中台 数字化转型

万恶的NPE如何避免,几种你必须知道的方案!!!

不才陈某

后端

游戏夜读 | 什么是黑色一分钟?

game1night

CI/CD - Python Django 项目在 Jenkins 上的实践

meta-algorithmX

Python django TDD CI/CD

MaaS突破“临界点”,全栈Serverless化再升级,阿里云如何重塑云计算技术体系?_Serverless_桑红妍_InfoQ精选文章