写点什么

万卡时代,企业需要怎样的算力集群?

  • 2025-11-26
    北京
  • 本文字数:3639 字

    阅读完需:约 12 分钟

万卡时代,企业需要怎样的算力集群?

过去两年,AI 算力需求陡峭跃升,推动 AI 基础设施发展进入关键拐点。

 

从需求结构上看,AI 算力的消耗已经从原来集中的训练主导,转向由推理驱动,推理算力消耗占据行业约七成。

 

从行业需求看,AI 应用和开发进入规模化落地的阶段,金融、医疗、制造等传统行业的智能化加速,使算力成为嵌入业务流程的刚性资源。同时,高价值场景对延迟、并发、隐私的要求提升,叠加数据规模和复杂度爆发式增长,进一步推高了对底层算力要求。

 

紧随其后的是算力供给的问题:企业需求往往呈现突发性、百卡级甚至千卡级规模;多架构芯片并存导致有效算力被切碎成“孤岛”;网络与通信效率成为集群扩展的隐性上限;而热、电、空间等工程约束,又让传统算力扩容难以跟上节奏。

 

在此背景下,智算集群被视为应对算力供给的关键方案。

 

智算集群通过软硬协同提升有效算力利用率,突破网络瓶颈,实现大规模集群的线性扩展,并在调度层面提供快速弹性和自愈能力。

 

随着腾讯云等厂商努力将 GPU 有效算力推向 80%~90%,智算集群正成为满足激增需求、缓解结构性短缺、承载企业级 AI 业务的基础设施答案。

 

为了帮助更多 AI 从业者、企业决策者在数智化转型中,做出更好的业务决策,InfoQ 联合腾讯云发起了「InfraTalk」直播 IP 系列,聚焦云基础设施的技术演进与产业价值,邀请行业分析师、企业实践者与云厂商共同探讨 AI Infra 的能力框架、落地路径与未来趋势。

 

以下内容为第二期圆桌直播内容精要。InfoQ 特别邀请腾讯云异构计算研发总监陈煜东、弗若斯特沙利文资深分析师蔚迪诺,和 AI SEMI LIMITED 联合创始人、CEO Yoyo Lu,解析目前 AI 算力行业面临的挑战和解决方案。

 

完整回放详细看

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    宝藏观点集中看

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      扫描二维码,获取腾讯云联合 IDC 发布的《AI Infra:加速智能体落地的基础架构发展趋势与产业实践》白皮书,了解更多行业知识。



      算力供给和建设,缺口在哪?


      过去几年,国内数据中心与超算中心持续扩容,AI 产业的算力底座显著增强。然而,目前的算力供给依旧难以完全匹配行业节奏。

       

      出现算力短缺,是供给弹性稳定性、效率和行业差异等多重因素叠加的结果:

      • 供给弹性不足。AI 工作负载天然具备强烈的峰谷特征,模型训练、推理上线、业务爆发等都会带来百卡乃至千卡级的瞬时需求。面对这种突发需求业内缺乏解决方案;

      • 供给稳定性难以保证。对于半导体制造这样精密度和稳定度要求极高的行业,目前更追求整体性能的稳定,即均值效果。他们期望长期稳定、持续性、可复用的算力供给;

      • 调度效率上,多架构芯片的并存容易形成算力孤岛。一旦通信链路或 I/O 跟不上集群建设,实际利用率就会大打折扣;

      • 短缺并不仅在 GPU 本身,也在配套工程侧。机房机位、电力容量、制冷能力、高速网络等基础设施,都可能成为限制算力供给的关键瓶颈;

      • 不同行业对算力的需求也不同。在某些应用密集或新兴场景,如半导体 AI 应用早期,可能存在“缺芯缺算力”的情况,但在某些传统行业场景,如零售中,算力可能并不短缺。

       

      上述瓶颈,也对 AI 基础设施的建设也提出了新的需求,促使行业重视高通量网络技术、高性能存储体系和算力弹性调度能力的建设:

      • 高通量网络技术:随着 Al 计算集群规模不断扩大,如何保持算力的线性扩展成为业界难题。Al 模型的训练与推理具备规模大、周期长的特点。网络间的高效互联及构建高通量规模网络成为保障 Al 工作负载的核心条件之一;

      • 高性能存储体系:正在成为新的“硬门槛”。数据总量与质量决定 Al 模型上限,Al 的发展离不开海量的数据,高性能存储能力能够满足 AI 系统对数据存储容量的需求,确保数据安全可靠性。当前高性能存储能力仍面临性能、能耗、成本等多方面挑战与压力;

      • 算力弹性调度能力:Al 应用存在显著的波峰波谷和突发请求,弹性调度可基于业务需求,实现资源的动态分配,保障 Al 服务的稳定性与连续性。虚拟化、容器化与池化是算力弹性调度基础。当前,异构兼容技术与预测性弹性伸缩技术逐渐成为基础技术外的算力调度新选择。


      由于集群可以通过协同调度来解决对峰值和均值的需求,在保证服务器稳定性的同时提升 GPU 的利用率,业界正在从单机性能转向集群能力。

      集群的构建和交付


      目前,行业对 AI 业务落地的紧迫需求,也为云厂商设置了紧张的交付周期。

       

      根据 Yoyo Lu,对于小规模的云部署,半导体行业客户期待交付时间不超过一周;对于私有化部署,行业常见交付周期在 1 到 2 个月,节点规模更大时可能在 2 到 6 个月。

       

      这就要求厂商不仅要有构建大规模集群的能力,更要有将其快速交付、并灵活匹配不同企业技术栈的解决方案。

       

      为了满足云上客户快速的需求,腾讯云采取了以下策略:

      1.  提前做好资源建设: 通过提前建设大量的资源,管理库存水位,保障客户资源供应;

      2.  即时交付小规模资源: 少量资源(例如几十卡)基本上可以随时买到;

      3.  周级交付百卡规模: 对于百卡规模的需求,腾讯云能够做到一周之内满足资源交付。

       

      更进一步,集群的价值最终需要通过易用的服务来体现。 为此,腾讯云提供了 IaaS + PaaS + MaaS 三位一体的服务模式,以适配不同技术能力的企业用户:

      • IaaS 层面,对于自身开发能力完备的客户,提供算力资源,方便客户自行搭建上层的 PaaS/SaaS 平台;

      • PaaS 层面,提供开箱即用的训练与推理平台,用户只需专注算法,平台则负责作业重试、任务编排、监控和故障自愈等;

      • MaaS 层面,适用于 AI 应用用户,按 Token 收费,让 AI 应用开发者无需关注底层基础设施,按需调用,快速构建应用。

      集群性能优化


      构建大规模集群并实现快速交付仅是第一步。未来集群的竞争力,关键在于克服性能随规模增长而出现的“线性损耗”

       

      在半导体制造这一领域,AI SEMI LIMITED 联合创始人 Yoyo Lu 分享了其光刻软件的实测案例。“我们发现,在单机内,从 1 张卡到 8 张卡,性能提升接近线性。比如单卡训练 10 小时,8 卡大约 1 个多小时就能完成。但当我们开始使用多个节点时,就必然会出现线性损失。” Yoyo Lu 补充道,“从工程角度看,我们认为如果偏离线性的幅度能控制在 10%到 20%之间,最好是十几个百分点左右,就是一个相对可接受的范围。”

       

      这一行业实证,恰恰点明了大规模算力集群的共性挑战:如何通过系统级优化,将理论算力最大限度地转化为有效输出?

       

      而腾讯云作为算力提供方,通过无损网络和各种优化措施,将 GPU 算力的线性扩展比提升到 95%。

       

      腾讯的优化方案是,围绕计算、存储与网络三个核心层面展开协同设计:

      • 网络与通信优化:通过自研通信库和无损网络调度机制,减少链路拥塞、确保带宽稳定;引入“最优路径选择”和 GPU 拓扑感知调度,尽量让通信在同交换机内完成,避免跨交换机产生额外延迟;同时,通过类似“智能红绿灯”的网络控制方式,协调数据包传输,降低拥塞风险。

      • 存储与数据管线优化:训练过程需要频繁加载远端数据,并写入 checkpoint。为避免 GPU 等待 I/O,腾讯云设计了多级存储加速方案,加快从对象存储到显存的数据流动。针对推理场景,对模型文件做分片、热节点感知调度,并提供多机 KV cache 存储,加速多轮对话。

      • 调度、作业管理与框架优化:训练平台会监控节点状态,并在节点异常时快速隔离、恢复,当前自愈时间可缩短至 5–10 分钟。在训练框架层(如 PyTorch)做软件级优化,尽可能压榨硬件性能;在推理端,通过自研权重加载工具加速模型上线与扩容。


      通过多层协同策略,腾讯云提升了大规模集群的训练与推理效率,为企业提供更高利用率、更稳定的算力支撑。

      AI 算力演进方向


      未来一年,智算集群的演进将进入新的加速期。行业共识是,未来算力基础设施的竞争将聚焦于集群的规模和效率、软硬协同的深化,以及场景专有算力的落地。

       

      从集群建设维度看,规模提升已成为明确趋势。各大厂商正推进超高密度建设,单集群迈向“万卡级”,甚至探索“十万卡级”的超级节点。

       

      但规模扩张同步带来系统性复杂度提升:节点间通信更频繁、故障影响更广泛、网络结构更容易出现瓶颈。如何在大规模架构下确保训练稳定性、作业内的通信一致性,是未来一年集群建设面临的最大工程挑战。其中,软硬协同,是集群规模化后提升效率的必然路径。

       

      与此同时,行业将从通用算力转向场景专有算力方案,针对半导体制造、工业、医疗、汽车等细分领域,形成标准化配置的集群,以提升资源匹配度。

       

      这也意味着,在生态协作上,芯片和软件必须提高协同能力;云厂商与行业客户、应用开发方与基础设施方进行多方的磨合,共同推进标准的共建。

       

      高效、稳定、经济地获取与利用算力,已经成为行业 AI 落地的核心诉求。

       

      在这一背景下,智算集群所具备的软硬协同、弹性供给能力,已经获得行业肯定。

       

      展望未来,算力集群的演进将沿两条主线深化:一是纵向的规模深化,突破“万卡集群”带来的通信与能效瓶颈,提升大规模训练的线性扩展能力;二是横向的场景融合,从通用算力走向融入行业知识的专有算力方案,让底层基础设施能够更贴近业务需求、高效支撑关键场景。

       

      这条道路无法仅靠单一厂商完成,它需要芯片、软件、云厂商与行业客户形成更紧密的产业协同,共同构建下一代 AI 基础设施。

       

      11 月 27 日,「InfraTalk」第三期“AI 存储”专场,将在视频号直播间进行。

      扫码预约,不要错过!



      2025-11-26 11:041839

      评论

      发布
      暂无评论

      深入浅出MatrixOne Parser

      MatrixOrigin

      矩阵起源 MatirxOrigin MatirxOne

      【LeetCode】字符串解码Java题解

      Albert

      LeetCode 10月月更

      从SpringBoot启动,阅读源码设计

      Java 架构

      Python进阶(四)浅谈Python闭包

      No Silver Bullet

      Python 闭包 10月月更

      干货分享 | MatrixOne系统架构

      MatrixOrigin

      MatrixOrigin MatrixOne 金海

      Windows开发工具安装

      青柚1943

      dapr

      Python应用之验证码验证

      芯动大师

      验证码 10月月更 Python应用

      开发者有话说|如何成为优秀的前端技术经理

      No Silver Bullet

      个人成长 技术经理

      爬虫练习题(三)

      张立梵

      Python. 10月月更 爬虫案例

      Python应用之激活码生成器

      芯动大师

      Python语法 10月月更 激活码生成器

      【愚公系列】2022年10月 Go教学课程 021-Go容器之切片操作

      愚公搬代码

      10月月更

      2022-10-07:给定员工的 schedule 列表,表示每个员工的工作时间。 每个员工都有一个非重叠的时间段 Intervals 列表,这些时间段已经排好序。 返回表示 所有 员工的 共同,正

      福大大架构师每日一题

      算法 rust 福大大

      架构师的十八般武艺:可延展性

      agnostic

      可延展性

      leetcode 106. Construct Binary Tree from Inorder and Postorder Traversal 从中序与后序遍历序列构造二叉树(中等)

      okokabcd

      LeetCode 算法与数据结构

      Docker远程连接设置

      程序员欣宸

      Docker 容器 10月月更

      数据仓库的下一阶段该是什么?

      雨果

      数据仓库

      Python应用之哥德巴赫猜想——偶数

      芯动大师

      10月月更 哥德巴赫猜想 Python应用

      图像渲染

      掘金安东尼

      算法 10月月更

      实时数仓、数据中台、大数据平台、湖仓一体各有什么区别?

      雨果

      数据中台

      spring入门介绍

      楠羽

      笔记 spring 5 10月月更

      Python进阶(三)函数式编程之reduce()

      No Silver Bullet

      Python reduce 10月月更

      代码开发篇之设计模式

      邱学喆

      设计模式

      低代码将干掉65%软件开发工作,留给码农的时间不多了!

      雨果

      低代码

      Vue3入门指北(十一)watch 和 watchEffect

      Augus

      Vue3 10月月更

      MFC|MediaPlayer基本功能使用

      中国好公民st

      c++ qt 10月月更

      想学Go Web?先来看看如何搭建一个beego项目吧

      Regan Yue

      Go Go web Beego 10月月更

      golang反向代理实现中的坑位

      有态度的马甲

      开发者有话说 | 求知若饥,虚心若愚

      Samson

      程序员 个人成长 10月月更 成长感悟

      万卡时代,企业需要怎样的算力集群?_云计算_陈姚戈_InfoQ精选文章