阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

后摩尔定律时代,如何提升云效益的天花板

  • 2023-03-27
    北京
  • 本文字数:3475 字

    阅读完需:约 11 分钟

后摩尔定律时代,如何提升云效益的天花板

在摩尔定律失效的今天,各行各业对算力的需求却空前膨胀。大数据、AI 等趋势方兴未艾,生命科学、智能制造等行业的深度数字化,也给数据处理的规模和性能带来更高要求。


云作为如今数字经济的基础设施,承载着海量的应用。云厂商不得不思考,如何才能更好地满足客户对数据处理效率越来越高的要求,对算力性能、性价比越来越高的要求?


在摩尔定律失效的今天,当前云上的企业是否已经触碰到了云效益的天花板?云厂商可以做点什么,来突破传统计算架构下对算力的限制?作为一种新型的计算服务提供模式,云服务器所提供的性价比如何超越自建数据中心?


本文,InfoQ 于阿里云第八代企业级实例 g8i 正式发布之际,采访到了阿里云弹性计算产品总监王志坤和阿里云高级产品专家姬少晨,试图寻求上述问题的答案。

死磕“性能”,软硬一体化重塑计算架构


3 月 24 日,阿里云发布第八代企业级实例 g8i。其依托于 CIPU+ 飞天的技术架构,搭载第四代英特尔至强处理器(代号 Sapphire Rapids,SPR),全核睿频 p0n 达到 3.2GHz,相比上一代实例,整机核密度提升 50%,性能提升 60% 以上。


存储方面,IOPS 最高达 100 万,全面适配 NVMe 云盘,存储延时低至百微秒,同时支持共享盘。网络方面,全面升级至配阿里云自研 eRDMA 大规模加速能力,g8i 是业界首个具备大规模弹性 RDMA 加速能力的计算实例,网络延时最低 8 微秒,为数据库、大数据等常见应用带来进一步的性能跃升。


这种算力服务水平的不断提升,效益的不断突破,从何而来?


从阿里云弹性计算的一路演进来看,答案很明确:软硬一体化,甚至尝试重构传统计算架构。具体到本次 ECS g8i 实例,其表现为基于“飞天 +CIPU”架构。


如今,软硬一体化成为所有云厂商共同的方向。如果将时间倒退到 2017 年,阿里云是孤独的。


以往,企业选择上云主要是希望通过其进行商业模式的创新,云计算弹性、灵活、免运维的原始特点降低了企业的初始建设门槛,虽然这牺牲了一部分性能,但在当时的商业环境下,这样的性能损失与其带来的商业价值相比并不关键。


后来,随着越来越多的企业上云,性能损耗问题越来越突出。为了解决这一问题,阿里云相关研发团队于 2017 年推出业内首款计算虚拟化损耗为零的神龙弹性裸金属服务器,深度融合了物理机和虚拟机特性,标志着神龙架构的诞生。


45 天之后,亚马逊云科技在地球另一端发布了自研的云服务器硬件——Nitro。


自此,云厂商开始深入硬件领域,战场开始发生转移。


2019 年 9 月,阿里云正式发布第三代自研神龙架构,用户能在云上获得超越传统物理机 100% 的计算能力。2021 年,第四代神龙架构诞生,具备业界首个大规模弹性 RDMA 加速能力。2022 年,神龙架构全面升级为 CIPU,可实现对计算服务器即插即用,对数据中心内部的云计算体系架构进行改革创新,从以 CPU 为中心的体系架构进入以飞天操作系统 +CIPU 为中心的体系架构。


如今,云计算所能提供的优势不单单是免运维,而是性能也就是性价比的全面提升。ECS g8i 的发布让这种能力更加普惠,让大部分云上用户都可以感受到云平台本身的性能跃迁。

普惠 eRDMA 加速能力,突破场景化性能极限


ECS g8i 实例的发布也标志着阿里云自研 eRDMA 能力的全面商业化,这也是本次第八代实例 g8i 的性能大杀器之一。eRDMA 能够大幅提升大规模计算通信效率,并且能够随着阿里云的集群规模动态扩展,轻松构建大规模 RDMA 高性能计算网络。


RDMA(Remote Direct Memory Access)是一种高性能网络传输技术,可将数据直接从一台计算机的内存传输到另一台计算机,数据传输不经过 CPU。相比传统 TCP 网络,RDMA 能够大幅减少 CPU 的开销,并降低网络互联带来的通信延迟,有助于在云上处理更大数据量的应用。


然而,搭建 IB (InfiniBand) 和 RoCE(RDMA over Converged Ethernet)等主流 RDMA 方案,存在部署周期长、维护成本高、使用门槛高和无法大规模组网等弊端,同时与现有 TCP 网络不兼容。企业需要购置昂贵的专用设备,并对应用做改造,才能用上 RDMA 能力。


阿里云通过自研的 CIPU,基于云上通用设备,研发出“弹性 RDMA”,简称 eRDMA。相较于传统 TCP 网络,eRDMA 具有更高性能,同时消灭了上述弊端。


基于 CIPU,eRDMA 与云上 VPC 共享同一张网络,用户可以随开随用具有 eRDMA 能力的实例;现有 Redis、Spark、AI、HPC 等应用,通过阿里云提供的接口,即可一键适配,最大程度降低企业的使用难度。同时,企业的大规模分布式计算应用将更加高效,能够以更低的成本在更短的时间内处理更大规模的数据量。


与此同时,芯片厂商的王牌代表英特尔,也在用自身的方式,正在打破摩尔定律失效的魔咒。他们给出的方式,是 CPU 内置多种加速器——让 CPU 不仅仅承担通用计算的功能,而是变得擅长更多垂直场景。


第四代英特尔至强可扩展处理器所配备的硬件原生加速器,搭配上阿里云的 eRDMA 能力,更是使 g8i 在大数据和数据库等场景下的性能大幅提升。


“英特尔已经不是一家传统的 CPU 厂商,它也在积极地向云转型,而通过硬件辅助的虚拟化带来的性能优势是巨大的。阿里云每年都会与英特尔保持高密度的沟通,双方就如何让云计算更加普惠做深入合作,而只有当云本身达到一定的体量,这种合作的规模化效益才能展现出来,实现双赢。”王志坤表示。


阿里云弹性计算产品线负责人张献涛表示,阿里云 CIPU+ 飞天的技术架构与第四代英特尔® 至强®可扩展处理器的强强联合下,阿里云第八代企业级实例 g8i 规格族性能最大提升了 60%,叠加第四代英特尔® 至强®处理器的加速器,在大数据、数据库等场景实现了数倍级性能提升,进一步为客户实现降本增效;同时,双方就机密虚拟机能力 TDX 在云上的实践进行了深度的技术合作,相信在双方的持续紧密合作之下,将会给更多各行业的客户带来更具性价比的技术红利。

卷安全:将机密计算拉下神坛


在性能得以持续攀升的背后,云厂商必须死守安全底线,否则皆是空谈。


安全方面,本次发布的 ECS g8i 实例支持可信计算与加密计算等特性,默认内存加密(TME),并率先支持机密虚拟机 TDX(Intel® Trusted Domain Extension)能力。


随着云计算的大规模部署,机密计算旨在允许将云提供商从可信计算基础(TCB)中移除,以便只有硬件和受保护的应用程序本身在可信边界内。这使得客户可以放心地、安全地将业务负载转移到公有云上。然而,过去多年,机密计算对用户来说始终是一种“看得着,摸不着”的存在。


在工程落地层面,主流的机密计算技术方案要么对应用具备较大侵入性,要么性能会做出较大牺牲。作为亚太地区最早部署机密计算的云厂商,阿里云一直在持续推广可信与机密计算技术以为客户的数据提供更好的保护。


ECS g8i 实例成功将机密计算“拉下神坛”,其全量搭载安全芯片 TPM 作为硬件可信根,实现服务器的可信启动,确保零篡改;虚拟化层面,支持虚拟可信能力 vTPM,提供实例启动过程核心组件的校验能力。在实例可信的基础上,配合英特尔硬件 TEE 能力和内存加密 TME (Intel® Total Memory Encryption) 技术,以及阿里云自研的加密计算隔离环境 enclave,ECS g8i 实例进一步实现数据的可用不可见,为大型互联网、新金融、医疗保健、知识产权等业务场景提供了更高安全等级数据保护能力和云上可信运行环境。


内存加密 TME 技术是新一代 ECS g8i 实例独具的全新安全加密技术。在该技术的加持下,ECS g8i 实例默认全内存加密,加强内存数据的抗物理攻击能力,进一步提升云上数据的安全水位,用户无需对操作系统或应用进行任何改动,即可享受到更高一层的安全防护。


同时,基于英特尔第四代至强可处理器的 g8i 实例还实现了机密虚拟机能力 TDX 在云上的实践,无需用户二次开发即可将现有应用迁移至受 TDX 保护的实例。阿里云和 Intel 在 TDX 的架构设计、功能验证、安全分析和性能优化等方面均进行了紧密的合作,并实现了 TDX 技术在云上的首次应用。目前,阿里云在全球范围内实现了该能力的首发,这将推动机密计算的通用化和平民化,并与可信技术一起成为未来云上服务器的标准能力。

行进在云普惠的路上:天花板远未到达


过去 14 年的发展历程中,阿里云的弹性计算演进史可以概括为云计算技术的普惠历程、算力的普惠历程,这对当今处在人工智能风暴中的企业而言具备极大的场景价值。


时至今日,云所带来的已经不单单是运维优势,性能提升的背后蕴含着的是巨大的成本优势。随着阿里云这样的云厂商在核心技术层面不断做出突破,将会有越来越多的企业愿意深度用云。


在政策方面,数字中国建设、东数西算等都将云计算放到了非常重要的位置。未来十年,在多方利好因素促成之下,我们有理由相信云计算将进入普惠发展期。


所以,云效益的天花板远未到达,有些人尚未触顶,有些人在不断突破极限。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-03-27 14:093162

评论

发布
暂无评论
发现更多内容

Agora Web UIKit:快速构建视频通话或直播

devpoint

React 直播技术 视频通话

聊聊 Sharding-Jdbc 的简单使用

Nick

MySQL 分库分表 中间件 ShardingJDBC 6月月更

C#入门系列(二) -- 程序结构

陈言必行

C# 6月月更

Python的教程

智趣匠

Python编程 6月月更

火遍全网的AI给老照片上色,这里有一份详细教程!

博文视点Broadview

NFT,元宇宙的通行证

CECBC

最强分布式事务框架是怎么炼成的?

峨嵋闲散人

分布式事务 云原生 分库分表 无侵入 dbmesh

Flutter如何一键唤起

坚果

6月月更

用乐高玩转Scrum,轻松拿CSM证书

ShineScrum捷行

Scrum ScrumMaster CSM 乐高

推进流程挖掘技术发展,信通院首轮流程挖掘评测预报名正式启动

王吉伟频道

RPA 信通院 流程挖掘 流程挖掘评测 行业标准

linux之同时监控多个日志文件变化

入门小站

Linux

静态路由,YYDS

wljslmz

网络工程师 6月月更 静态路由 路由协议

包装类这颗语法糖,其实并不甜

L

Java

Neo4j 知识图谱的图数据科学-如何助力数据科学家提升数据洞察力线上研讨会于6月8号举行

蓝海大脑GPU

纯CSS:动态渐变背景【一分钟学会】

德育处主任

CSS css3 纯CSS css特效 6月月更

写Python爬虫,服务器返回数据加密了,套路解决法~,出版社,出版社

梦想橡皮擦

6月月更

在线数字转成人民币大写

入门小站

工具

在线HTML转PERL工具

入门小站

工具

Fabric.js 圆形笔刷

德育处主任

canvas 前端可视化 Fabric.js 6月月更 前端画板

区块链技术促进医药冷链物流更加可控和智能化

CECBC

【愚公系列】2022年06月 二十三种设计模式(十九)-观察者模式(Observer Pattern)

愚公搬代码

6月月更

DBNet实战:详解DBNet训练与测试(pytorch)

AI浩

人工智能 6月月更

CC2530 GPIO口输出配置说明​

DS小龙哥

6月月更

天猫精灵的自定义语音技能创建流程

Jerry Wang

人工智能 机器学习 机器人 机器人流程自动化 6月月更

Django API 开发:Todo 应用的 React 前端

宇宙之一粟

django React API 6月月更

王者荣耀商城异地多活架构设计

踩着太阳看日出

架构训练营

java虚拟机启动过程解析

乌龟哥哥

6月月更

RxJS系列02:可观察者 Observables

代码与野兽

6月月更

LLVM之父Chris Lattner:模块化设计决定AI前途,不服来辩

OneFlow

机器学习 深度学习 AI

彰显个性│博客园的自定义主题

主题 可视化看板 6月月更

2022年SaaS的10个有趣趋势

小炮

后摩尔定律时代,如何提升云效益的天花板_服务革新_赵钰莹_InfoQ精选文章