10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

以「场景」定义算力:AI 时代,通用算力不只“通用”

  • 2025-09-16
    北京
  • 本文字数:6603 字

    阅读完需:约 22 分钟

大小:3.30M时长:19:12
以「场景」定义算力:AI时代,通用算力不只“通用”

近年来,业界普遍将 AI 和 GPU 划上等号,却忽视了 CPU 的重要性。事实上,CPU 通用算力的提升,正为企业现有核心业务创造巨大价值。同时,随着 AI 负载深度融入业务流程,企业对通用算力的需求迎来新一轮爆发。


市场数据已经有所印证。阿里云智能集团弹性计算产品线、存储产品线产品负责人 Alex Chen 透露,阿里云在过去一个财年中,商业化的 vCPU 实现了有史以来最快的规模扩张,其中很多需求直接与智算项目相关。


这种需求的量变,也催生了 CPU 角色的质变。正如 AMD 公司全球副总裁、大中华区互联网及企业事业部销售总经理 Maria Tang 所言:CPU 的角色正在从过去的“前台计算引擎”进化为“智能系统基座”。她认为,在 AI 时代,CPU 不再仅仅是执行计算任务的单元,更像是“AI 服务器的神经中枢”,负责云原生调度、微服务协调和安全隔离等关键任务。


正是在这一产业背景下,阿里云与 AMD 联合发布的三款基于 AMD Zen 5 架构“Turin”处理器的全新 ECS 实例,包含面向三类不同场景需求的产品——旗舰型 g9ae、高主频 g9a 和通用型 u2a 三款实例。

这不仅是一次常规产品迭代,更是两家行业巨头对“AI 时代算力应如何构成”这一核心问题所做出的体系化回应。


本期《C 位面对面》,极客邦科技创始人兼 CEO 霍太稳对话阿里云智能集团弹性计算产品线、存储产品线产品负责人 Alex Chen (陈起鲲)以及 AMD 公司全球副总裁、大中华区互联网及企业事业部销售总经理 Maria Tang(唐晓蕾),深入探讨云端 CPU 实例的独特价值。

三款云实例:开启“场景化算力”新时代


对于绝大多数企业而言,其核心 IT 负载并非训练千亿参数的大模型,而是支撑日常运营的数据库、电商平台、ERP 系统等。这些系统对 CPU 算力的低延迟、高稳定性及高性价比的需求从未减弱,甚至在数字化转型和出海浪潮中愈发强烈。


而如今火爆的 AI 应用,本质是在这些核心业务的算力需求之上,进一步放大了对高效通用算力的渴求。比如,高频交易需要极低延时的单线程性能,隐私计算要求强大的并行处理能力,边缘计算则追求功耗与性能的精准平衡。


企业开始意识到,不同业务场景对算力的需求存在本质差异:AI 推理更看重延迟和吞吐,传统业务更依赖稳定性和成本效益,而混合负载则需要灵活的资源调配能力。这种多元化选型策略的背后,体现的是企业对技术投资回报率的务实追求——不再盲目追逐热点技术,而是基于实际业务需求做出最优化的资源配置决策。这也是阿里云此次一口气发布三款面向不同场景云实例的原因。


进一步看,阿里云与 AMD 此次发布的三款基于 AMD 第五代 EPYC™(代号 Turin)处理器的实例,并未止步于简单的硬件升级,而是基于对客户场景的深度洞察,推出了一系列为不同场景“量身定制”的算力服务,精准地回答了不同业务场景的算力需求。


阿里云第九代 AMD 企业级 ECS 实例包含三款型号:旗舰型 g9ae、高主频 g9a 和通用型 u2a。具体来看:


u2a 是中小企业“算力普惠”的入门之选,主打“低成本 + 高性价比”,让中小企业也能无门槛享受最新一代 CPU 带来的技术红利。



u2a 基于高主频的 Turin C 架构设计,相较于上一代 u1 实例,其性能基线提升 20%,并支持额外 15% 的算力突发;网络带宽从 10 Gbps 提升至 16 Gbps,并可突发至 25 Gbps。同时,u2a 目录价降低约 10%,综合性价比提升高达 50%。u2a 在性能与成本之间找到了一个平衡点,极大降低了中小企业上云和使用最新技术的成本,聚焦业务创新。


g9a 则是高主频场景的“性能王者”,专为高频交易、EDA 仿真、3D 渲染、HPC 等对 CPU 主频和单核性能极度敏感的场景设计,满足对极致响应速度的追求。


它搭载 Turin C 处理器,睿频最高可达 4.1GHz,能够为金融、先进制造、科研等行业提供满足其严苛高实时性要求的算力,并能与 GPU 高效协同,加速 AI 仿真与训练的全流程。



g9ae 则是大数据、搜索推荐场景的“算力旗舰”, 面向大规模企业客户,专为大数据处理、高密度容器化部署等需要极致多核性能和稳定性的场景打造。g9ae 基于高核心密度的 Turin D 架构,单颗 CPU 核心数可达 192 核。相比上一代 Genoa 实例,g9ae 在大数据场景下的性能提升超过 40%。


g9ae 最引人注目的技术亮点之一,是采用了“物理核”设计。这意味着交付给客户的是一个独占的、不受其他线程争抢缓存及指令的物理核心。



对于性能抖动敏感、对稳定性要求较高的容器化应用(如在线交易、实时音视频等)而言,这是一项关键的产品策略上的改变。它在保持云的弹性与成本优势的同时,充分挖掘场景化底层的技术本质,提供性价比最佳的算力服务。


此外,g9ae 还采用了创新的双单路服务器设计,即一颗 CPU 故障不影响另一颗的运行,有效将故障影响范围减半,提升了系统的稳定性和可靠性。


对于真实场景的客户而言,g9ae 最大的价值则在于允许客户在单个实例中部署更多容器,显著提升资源利用率,通过“更少的实例,更高的性能”,帮助大规模企业在云上实现真正的降本增效。


如果将这三款实例和汽车的驾驶模式作一个粗略类比,u2a 就像“经济模式”,省油耐用,适合日常通勤;g9a 像“运动模式”,高转速爆发,为专用赛道设计;而 g9ae 更像“越野模式”,多核并联,专为应对复杂地形而生。不同的"驾驶场景"需要不同的"性能调校",这正是场景化算力的核心理念。


阿里云和 AMD 用这三款实例向行业释放了一个关键信号——当 AI 进入业务的深水区时,企业的算力选型策略已经从过去粗放式的“GPU 万能论”,逐渐转向更加精细化、场景化的选型思维。


只是,传统云服务商在实例设计上长期存在一个技术难题:为了满足不同性能需求,往往需要采用不同代际、不同架构的处理器来构建差异化实例。这种做法虽然能够在单一维度上优化性能,但却带来了系统性的复杂度挑战——不同指令集和架构特性导致软件开发和优化工作量成倍增加,客户在不同实例间迁移时面临兼容性风险,供应链管理也变得异常复杂。


而阿里云此次发布的三款实例,则实现了基于同一款 AMD 第五代 EPYC™ Turin 处理器的“一芯三用”创新突破。这不仅意味着客户可以在统一的技术栈上享受差异化的性能体验。


更重要的是,“一芯三用”破解了云计算领域的“不可能三角”——即如何在实现性能差异化的同时,兼顾技术统一性与成本效益。它使得企业在保持统一技术栈和供应链优势的前提下,灵活满足高频计算、大规模并行与通用场景的多样化需求,从根本上解决了传统多芯片方案带来的生态碎片化问题。


那么,阿里云与 AMD 究竟是如何实现“一芯三用”的?

“一芯三用”背后的技术密码


这一看似“不可能”的技术突破,实际上源于 AMD 对处理器设计哲学的根本性重构和阿里云对云计算场景的深度理解。


传统的处理器设计往往采用“单一优化目标”思维——要么追求极致的单核性能,要么专注于多核并行能力,很难在同一芯片上兼顾多种性能特征。


AMD 在设计 Turin 之初就和阿里云深入沟通,引入了“场景化设计”思维,定义出面向不同场景需求的两款处理器架构——Turin C(Classic)和 Turin D(Dense)。


据 Maria 介绍,Turin 基于全新“Zen 5”核心架构打造。与“Zen 4”相比,全新“Zen 5”核心架构为企业和云工作负载提供了高达 17% 的每时钟指令数 (IPC) 提升,在人工智能和高性能计算 (HPC) 领域提供了高达 37% 的 IPC 提升。



同时,通过 Chiplet 技术,AMD 将不同功能的芯粒进行灵活组合,在同一架构下提供不同的核心密度配置(Turin C 的高频优化和 Turin D 的多核设计),在硬件层面为"一芯多用"奠定了基础。具体来看:


  • Turin C (Classic)基于 “Zen 5” 架构,采用 4nm 制程,具有多达 16 个“Zen 5”CCD,提供多达 128 个内核和 256 个线程;睿频可达 4.1GHz,为高频交易、EDA 仿真、实时渲染等对延迟极度敏感的应用提供了强有力的支持。


  • Turin D(Dense)基于 “Zen 5c” 架构,采用了 3nm 制程的“Zen 5c”内核和多达 12 个 CCD,提供多达 192 个内核和 384 个线程。Turin D 专为高密度和高能效场景设计。


Zen 5 和 Zen 5c 微架构相同,指令集相同,IPC 提升相同,区别在于 Zen 5c 的核心计算单元(CCD)通过芯粒(Chiplet)架构支持更高的核心密度,这使其在云原生、容器化等需要极致并行处理能力的环境中表现卓越。



这种从芯片层面就开始的场景化定制,为云厂商进行差异化、高场景匹配度的实例设计铺平了道路,也正是它让“一款 CPU 支持多款 ECS 实例”成为可能。


然而,芯片性能过硬只是基础,如何将理论性能在真实场景最大程度释放,则考验着云厂商的体系化工程能力。阿里云并非简单地“拿来即用”,而是基于对客户真实业务场景的深度洞察,通过自研硬件以及针对性的软硬件协同优化,将 Turin 处理器的多元化潜能充分释放。


硬件方面,阿里云基于 Turin 自研服务器,其近年来反复强调的 CIPU(Cloud Infrastructure Processing Unit,云基础设施处理器)就是一个关键的自研硬件,在第九代实例中发挥了至关重要的作用。Alex 解释道,它作为一种专用处理器,将原本消耗 CPU 资源的虚拟化、网络、存储 I/O 乃至安全加密等基础功能完全卸载,从而实现了三大突破:


  • 虚拟化卸载: 将 Hypervisor 卸载至 ASIC,让 CPU 资源 100% 用于客户应用,彻底消除“虚拟化税”。


  • I/O 加速: 支持 2×200Gbps 的超高网络吞吐,并对存储读写进行硬件加速,为数据密集型应用扫清瓶颈。


  • 硬件级加密:默认对 VPC 网络进行硬件加密,实现数据传输安全,且性能零损耗。


软件层面,为了让自研的 Alibaba Cloud Linux 3 操作系统与 AMD Turin 处理器达到“基因级”适配,阿里云修改了近 2 万行代码,涉及两百多个内核补丁,专门针对其多核架构、功能特性和 I/O 模块进行了深度优化。



可以说,阿里云自研的 CIPU 与 Turin 处理器构成了释放极致性能的“黄金组合”。通过 CIPU 的协同,Turin 得以从繁重的底层任务中解放出来,专注于上层应用计算,从而将每一分算力都发挥到极致,实现了 1+1>2 的效果。


而这种底层基础设施的革命性提升,为云原生时代的应用部署模式创造了全新的可能性。当 CPU 资源得到彻底释放、网络和存储性能大幅跃升后,传统的虚拟机部署方式已经无法充分发挥这些硬件红利。企业需要更加灵活、高效的资源调度方式来匹配这种算力密度的提升,而容器化技术恰恰成为了连接强大底层算力与上层业务需求的最佳桥梁。“新增算力中有 60% 是通过容器化方式部署的。”Alex 表示。


传统模式下,客户需要先购买裸金属或虚拟机,再自行部署容器管理软件,形成“虚拟化 + 容器化”的双重架构。阿里云去年推出的 Container Native Computing(原生容器计算)突破了这一模式,直接提供 Serverless 容器算力,跳过虚拟化层。


这一被称为阿里云容器计算服务(ACS)的业界首创产品,让开发者可以通过 YAML 文件直接指定资源需求——从最小 0.5 核起步,支持垂直扩展(scale up)至 4 核,同时支持水平扩展(scale out),构建了池化、可组合的基础设施。


目前,ACS 能够同时支持 CPU 和 GPU 算力。今年,ACS 进一步全面支持 AMD 架构,无论是性能型、通用型还是 best effort 型算力,都将引入对应的 AMD 产品能力,全面链接 AMD 生态。


然而,如此深度的技术协同和产品定制,并非任何一家云厂商和芯片公司都能轻易实现。阿里云为何选择 AMD 作为深度合作伙伴?双方的紧密协同又是如何实现的?

从“供需”到“共创”的创新范式变革


当云计算进入存量竞争时代,差异化已成为核心战略。阿里云选择 AMD,不仅因为其技术实力,更因为 AMD 愿意在产品定义阶段就进行深度协同。Turin 处理器的“场景化设计”思维,正是基于阿里云对真实云上业务需求的深度洞察。


这种合作已经超越了传统的"采购关系"。从芯片架构设计到服务器硬件优化,从操作系统适配到云服务产品化,双方构建了一个完整的技术闭环。这种全栈式的协同优化能力,构成了难以复制的竞争壁垒。

更重要的是,这种合作模式需要长期的技术积累、深度的市场理解,以及双方在战略层面的高度契合。


从 Milan 系列处理器的规模化商用,到 Genoa 系列的业务爆发,再到如今基于 Turin 的全面开花,阿里云与 AMD 的合作关系,已从传统的“采购”模式,演进为一种深度绑定的“价值共创”。


传统模式下,云厂商采购市面上的成品 CPU,再封装成云服务销售,这是一种线性的、滞后的价值链。而阿里云与 AMD 的合作,从芯片的产品定义阶段便已开始。这种模式确保了芯片的设计初衷就与云上最广泛、最真实的客户需求紧密相连,从源头上保证了产品的市场契合度。


然而,面对海量的客户需求和复杂的业务场景,如何准确理解需求痛点,并准确转化为产品定义,成为合作成功的关键挑战。


“经常是 10 个客户给你 20 个不一样的需求,”Alex 坦言。而 Maria 补充道,真正的挑战在于从纷繁复杂的需求中“听懂画外音”,洞察其背后共同的核心痛点。“我们之所以能够定义出今天这些产品,是基于对业界整体痛点的深入洞察和共同应对,一起面对挑战。分享成果很容易,但解决难题才是大家要去做的事。”Maria 表示。


正是基于这种对客户需求的深度理解,双方才能将看似矛盾的多元化需求转化为具体的技术创新方向。

这种“running to the problem”的务实理念,使得技术创新能够真正围绕客户价值展开,最终转化为市场领先的产品。正如 Alex 所言:"当竞争对手在关注我们的时候,我们在关注真正的场景优化和客户价值创造。"这或许就是阿里云多年来在激烈竞争中保持领先的秘诀。


当然,再先进的技术和产品,也需要通过全球化的服务网络才能真正触达更多客户,将其商业价值最大化。阿里云数据中心遍布全球 29 个地域,拥有 91 个可用区,是中国企业出海的首选云平台。


而支撑这一全球化布局的,正是阿里云将最新技术快速转化为规模化云服务的强大能力。 Alex 提到,当海外友商的主力实例仍停留在上一代 Genoa 时,阿里云已率先在全球范围内部署 Turin,在数据库等场景下可实现 40%-65% 的性能领先。这种代际差异带来的不仅是性能提升,更是客户生产力的根本性改变。


当技术优势能够通过全球化网络快速触达客户,当本地化创新能够在全球范围内复制和放大时,传统的技术竞争格局正在被重新定义。这种变革的影响,已经开始向更深层次的 IT 架构设计理念扩散。


当云厂商与芯片厂商不再“各自为政”,而是围绕真实场景深度融合时,一场更为深刻的变革正在酝酿——重新定义企业 IT 架构的设计理念。


首先,要转变思维,从单纯的 IT 资源采购转向 AI 能力建设。Maria 警示,CIO 不应再过度聚焦于采购了多少台服务器、多少带宽等物理资源。未来的核心矛盾在于“数据的流动性”——如何打破研发、生产、AI 等系统间的数据孤岛,让数据在需要的时间、以需要的方式自由流动起来,这才是释放 AI 潜力的关键。未来的 IT 架构设计必须围绕数据流动性展开。


其次,结合当前 Agentic AI 的火热趋势,Alex 则认为,传统以“人为中心”的 IT 架构或许会逐渐失效,未来的 IT 系统使用者将不仅是人,更是无处不在的 AI Agent。一个 Agent 可能会贯穿整个企业的运维、采购、HR 等多个系统,自主调用工具、检索数据。这种从“人机交互”到“万物皆 Agent”的范式转变,虽然尚在早期,但已开始对未来的 IT 基础设施设计提出全新要求,尤其是对作为“神经中枢”的 CPU 在调度、协同和知识处理方面的能力。

结语


在这个充满变数的技术时代,什么是确定的,什么是不确定的?


确定的是:无论技术如何演进,企业对高效、稳定、经济的算力需求不会改变;AI 与传统业务的深度融合趋势不会逆转;基于真实客户价值的技术创新永远有市场。


不确定的是:具体的技术路线会如何演进;新的应用场景会以什么形式出现;竞争格局会发生怎样的变化。


阿里云与 AMD 的合作实践告诉我们:在不确定性中寻找确定性的最佳方式,就是始终以客户价值为导向,以技术创新为手段,以生态协同为路径。



正如霍太稳在对话中总结的:“通用计算不是终点,而是面向未来设计架构时,关注性价比的最佳起点。”在 AI 与传统计算深度融合的新时代,这句话为所有技术决策者指明了方向:在追求创新的同时,不要忘记那些支撑创新的坚实基座。


当我们重新审视“CPU 算力过剩”这一伪命题时,真正的洞察在于:AI 时代不是要淘汰通用算力,而是要重新定义通用算力的价值和使命。在这个重新定义的过程中,那些能够深刻理解客户需求、持续推动技术创新、构建协同生态的企业,将在新的算力时代中占据主导地位。


这或许就是阿里云与 AMD 合作案例给我们的最大启示:真正的技术领先,不在于单点突破,而在于系统性的价值创造能力。在确定性与不确定性交织的技术变革中,这种能力将成为企业最宝贵的竞争优势。

2025-09-16 18:201

评论

发布
暂无评论

Redis精通系列——info 指令用法,阿里+头条+抖音+百度+蚂蚁+京东面经

Java 程序员 后端

Spring Cloud Gateway修改请求和响应body的内容

Java 程序员 后端

Spring Cloud原理详解,java程序员进阶

Java 程序员 后端

Spring MVC—XML配置与注解配置+使用注解完成请求参数绑定

Java 程序员 后端

springboo 使用自定义的 Tomcat,java常用的设计模式面试

Java 程序员 后端

SpringBoot基于微服务架构的前后端分离博客系统源码免费赠送(1)

Java 程序员 后端

SpringBoot基于微服务架构的前后端分离博客系统源码免费赠送

Java 程序员 后端

SDS——Redis源码剖析,java工程师进阶书籍

Java 程序员 后端

Spring Boot 精讲,看完你还敢说你不会 Spring Boot ?

Java 程序员 后端

springboot 整合 thymeleaf,java技术核心卷二

Java 程序员 后端

Spring MVC+Spring+Mybatis实现支付宝支付功能

Java 程序员 后端

Spring--快速入门,rabbitmq面试题总结

Java 程序员 后端

Spring-Boot-+-Redis-实现接口幂等性,看这篇就太好了

Java 程序员 后端

Spring Cloud入门-Zuul服务网关(Hoxton版本)

Java 程序员 后端

RocketMQ 5(1),kafka面试题零拷贝

Java 程序员 后端

Redis常用命令总结,kalilinux教程推荐

Java 程序员 后端

RocketMQ 5,linux端口转发技术

Java 程序员 后端

set集合框架,java消息中间件面试

Java 程序员 后端

Socket和ServerSocket的简单介绍及例子,mybatis源码面试题

Java 程序员 后端

Spring Boot 项目的这些文件都是干啥用的?,java电子书免费

Java 程序员 后端

Spring Cloud Gateway自定义过滤器实战(观测断路器状态变化)

Java 程序员 后端

Spring 数据库配置文件进行解密操作,和网易大佬的技术面谈

Java 程序员 后端

SpringBoot中的yaml语法及静态资源访问问题,mysql面试笔试题

Java 程序员 后端

Spring MVC面试题(2020最新版),java书籍入门下载

Java 程序员 后端

SpringBoot---错误处理机制,kafka实现负载均衡的原理

Java 程序员 后端

SpringBoot中好用的数据连接池,入职3个月的Java程序员面临转正

Java 程序员 后端

springboot入门教程,4000多页合集的计算机、网络、算法知识总结

Java 程序员 后端

Spring Boot 快速入门(二),华为工程师面试经历

Java 程序员 后端

Spring boot记录sql探索,java堆和栈面试题

Java 程序员 后端

SpringBoot---入门和配置,深入java虚拟机百度云

Java 程序员 后端

SpringBoot2---指标监控,kalilinux教程下载

Java 程序员 后端

以「场景」定义算力:AI时代,通用算力不只“通用”_芯片&算力_刘杨楠_InfoQ精选文章