2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

万卡时代,企业需要怎样的算力集群?

  • 2025-11-26
    北京
  • 本文字数:3639 字

    阅读完需:约 12 分钟

万卡时代,企业需要怎样的算力集群?

过去两年,AI 算力需求陡峭跃升,推动 AI 基础设施发展进入关键拐点。

 

从需求结构上看,AI 算力的消耗已经从原来集中的训练主导,转向由推理驱动,推理算力消耗占据行业约七成。

 

从行业需求看,AI 应用和开发进入规模化落地的阶段,金融、医疗、制造等传统行业的智能化加速,使算力成为嵌入业务流程的刚性资源。同时,高价值场景对延迟、并发、隐私的要求提升,叠加数据规模和复杂度爆发式增长,进一步推高了对底层算力要求。

 

紧随其后的是算力供给的问题:企业需求往往呈现突发性、百卡级甚至千卡级规模;多架构芯片并存导致有效算力被切碎成“孤岛”;网络与通信效率成为集群扩展的隐性上限;而热、电、空间等工程约束,又让传统算力扩容难以跟上节奏。

 

在此背景下,智算集群被视为应对算力供给的关键方案。

 

智算集群通过软硬协同提升有效算力利用率,突破网络瓶颈,实现大规模集群的线性扩展,并在调度层面提供快速弹性和自愈能力。

 

随着腾讯云等厂商努力将 GPU 有效算力推向 80%~90%,智算集群正成为满足激增需求、缓解结构性短缺、承载企业级 AI 业务的基础设施答案。

 

为了帮助更多 AI 从业者、企业决策者在数智化转型中,做出更好的业务决策,InfoQ 联合腾讯云发起了「InfraTalk」直播 IP 系列,聚焦云基础设施的技术演进与产业价值,邀请行业分析师、企业实践者与云厂商共同探讨 AI Infra 的能力框架、落地路径与未来趋势。

 

以下内容为第二期圆桌直播内容精要。InfoQ 特别邀请腾讯云异构计算研发总监陈煜东、弗若斯特沙利文资深分析师蔚迪诺,和 AI SEMI LIMITED 联合创始人、CEO Yoyo Lu,解析目前 AI 算力行业面临的挑战和解决方案。

 

完整回放详细看

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    宝藏观点集中看

    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      扫描二维码,获取腾讯云联合 IDC 发布的《AI Infra:加速智能体落地的基础架构发展趋势与产业实践》白皮书,了解更多行业知识。



      算力供给和建设,缺口在哪?


      过去几年,国内数据中心与超算中心持续扩容,AI 产业的算力底座显著增强。然而,目前的算力供给依旧难以完全匹配行业节奏。

       

      出现算力短缺,是供给弹性稳定性、效率和行业差异等多重因素叠加的结果:

      • 供给弹性不足。AI 工作负载天然具备强烈的峰谷特征,模型训练、推理上线、业务爆发等都会带来百卡乃至千卡级的瞬时需求。面对这种突发需求业内缺乏解决方案;

      • 供给稳定性难以保证。对于半导体制造这样精密度和稳定度要求极高的行业,目前更追求整体性能的稳定,即均值效果。他们期望长期稳定、持续性、可复用的算力供给;

      • 调度效率上,多架构芯片的并存容易形成算力孤岛。一旦通信链路或 I/O 跟不上集群建设,实际利用率就会大打折扣;

      • 短缺并不仅在 GPU 本身,也在配套工程侧。机房机位、电力容量、制冷能力、高速网络等基础设施,都可能成为限制算力供给的关键瓶颈;

      • 不同行业对算力的需求也不同。在某些应用密集或新兴场景,如半导体 AI 应用早期,可能存在“缺芯缺算力”的情况,但在某些传统行业场景,如零售中,算力可能并不短缺。

       

      上述瓶颈,也对 AI 基础设施的建设也提出了新的需求,促使行业重视高通量网络技术、高性能存储体系和算力弹性调度能力的建设:

      • 高通量网络技术:随着 Al 计算集群规模不断扩大,如何保持算力的线性扩展成为业界难题。Al 模型的训练与推理具备规模大、周期长的特点。网络间的高效互联及构建高通量规模网络成为保障 Al 工作负载的核心条件之一;

      • 高性能存储体系:正在成为新的“硬门槛”。数据总量与质量决定 Al 模型上限,Al 的发展离不开海量的数据,高性能存储能力能够满足 AI 系统对数据存储容量的需求,确保数据安全可靠性。当前高性能存储能力仍面临性能、能耗、成本等多方面挑战与压力;

      • 算力弹性调度能力:Al 应用存在显著的波峰波谷和突发请求,弹性调度可基于业务需求,实现资源的动态分配,保障 Al 服务的稳定性与连续性。虚拟化、容器化与池化是算力弹性调度基础。当前,异构兼容技术与预测性弹性伸缩技术逐渐成为基础技术外的算力调度新选择。


      由于集群可以通过协同调度来解决对峰值和均值的需求,在保证服务器稳定性的同时提升 GPU 的利用率,业界正在从单机性能转向集群能力。

      集群的构建和交付


      目前,行业对 AI 业务落地的紧迫需求,也为云厂商设置了紧张的交付周期。

       

      根据 Yoyo Lu,对于小规模的云部署,半导体行业客户期待交付时间不超过一周;对于私有化部署,行业常见交付周期在 1 到 2 个月,节点规模更大时可能在 2 到 6 个月。

       

      这就要求厂商不仅要有构建大规模集群的能力,更要有将其快速交付、并灵活匹配不同企业技术栈的解决方案。

       

      为了满足云上客户快速的需求,腾讯云采取了以下策略:

      1.  提前做好资源建设: 通过提前建设大量的资源,管理库存水位,保障客户资源供应;

      2.  即时交付小规模资源: 少量资源(例如几十卡)基本上可以随时买到;

      3.  周级交付百卡规模: 对于百卡规模的需求,腾讯云能够做到一周之内满足资源交付。

       

      更进一步,集群的价值最终需要通过易用的服务来体现。 为此,腾讯云提供了 IaaS + PaaS + MaaS 三位一体的服务模式,以适配不同技术能力的企业用户:

      • IaaS 层面,对于自身开发能力完备的客户,提供算力资源,方便客户自行搭建上层的 PaaS/SaaS 平台;

      • PaaS 层面,提供开箱即用的训练与推理平台,用户只需专注算法,平台则负责作业重试、任务编排、监控和故障自愈等;

      • MaaS 层面,适用于 AI 应用用户,按 Token 收费,让 AI 应用开发者无需关注底层基础设施,按需调用,快速构建应用。

      集群性能优化


      构建大规模集群并实现快速交付仅是第一步。未来集群的竞争力,关键在于克服性能随规模增长而出现的“线性损耗”

       

      在半导体制造这一领域,AI SEMI LIMITED 联合创始人 Yoyo Lu 分享了其光刻软件的实测案例。“我们发现,在单机内,从 1 张卡到 8 张卡,性能提升接近线性。比如单卡训练 10 小时,8 卡大约 1 个多小时就能完成。但当我们开始使用多个节点时,就必然会出现线性损失。” Yoyo Lu 补充道,“从工程角度看,我们认为如果偏离线性的幅度能控制在 10%到 20%之间,最好是十几个百分点左右,就是一个相对可接受的范围。”

       

      这一行业实证,恰恰点明了大规模算力集群的共性挑战:如何通过系统级优化,将理论算力最大限度地转化为有效输出?

       

      而腾讯云作为算力提供方,通过无损网络和各种优化措施,将 GPU 算力的线性扩展比提升到 95%。

       

      腾讯的优化方案是,围绕计算、存储与网络三个核心层面展开协同设计:

      • 网络与通信优化:通过自研通信库和无损网络调度机制,减少链路拥塞、确保带宽稳定;引入“最优路径选择”和 GPU 拓扑感知调度,尽量让通信在同交换机内完成,避免跨交换机产生额外延迟;同时,通过类似“智能红绿灯”的网络控制方式,协调数据包传输,降低拥塞风险。

      • 存储与数据管线优化:训练过程需要频繁加载远端数据,并写入 checkpoint。为避免 GPU 等待 I/O,腾讯云设计了多级存储加速方案,加快从对象存储到显存的数据流动。针对推理场景,对模型文件做分片、热节点感知调度,并提供多机 KV cache 存储,加速多轮对话。

      • 调度、作业管理与框架优化:训练平台会监控节点状态,并在节点异常时快速隔离、恢复,当前自愈时间可缩短至 5–10 分钟。在训练框架层(如 PyTorch)做软件级优化,尽可能压榨硬件性能;在推理端,通过自研权重加载工具加速模型上线与扩容。


      通过多层协同策略,腾讯云提升了大规模集群的训练与推理效率,为企业提供更高利用率、更稳定的算力支撑。

      AI 算力演进方向


      未来一年,智算集群的演进将进入新的加速期。行业共识是,未来算力基础设施的竞争将聚焦于集群的规模和效率、软硬协同的深化,以及场景专有算力的落地。

       

      从集群建设维度看,规模提升已成为明确趋势。各大厂商正推进超高密度建设,单集群迈向“万卡级”,甚至探索“十万卡级”的超级节点。

       

      但规模扩张同步带来系统性复杂度提升:节点间通信更频繁、故障影响更广泛、网络结构更容易出现瓶颈。如何在大规模架构下确保训练稳定性、作业内的通信一致性,是未来一年集群建设面临的最大工程挑战。其中,软硬协同,是集群规模化后提升效率的必然路径。

       

      与此同时,行业将从通用算力转向场景专有算力方案,针对半导体制造、工业、医疗、汽车等细分领域,形成标准化配置的集群,以提升资源匹配度。

       

      这也意味着,在生态协作上,芯片和软件必须提高协同能力;云厂商与行业客户、应用开发方与基础设施方进行多方的磨合,共同推进标准的共建。

       

      高效、稳定、经济地获取与利用算力,已经成为行业 AI 落地的核心诉求。

       

      在这一背景下,智算集群所具备的软硬协同、弹性供给能力,已经获得行业肯定。

       

      展望未来,算力集群的演进将沿两条主线深化:一是纵向的规模深化,突破“万卡集群”带来的通信与能效瓶颈,提升大规模训练的线性扩展能力;二是横向的场景融合,从通用算力走向融入行业知识的专有算力方案,让底层基础设施能够更贴近业务需求、高效支撑关键场景。

       

      这条道路无法仅靠单一厂商完成,它需要芯片、软件、云厂商与行业客户形成更紧密的产业协同,共同构建下一代 AI 基础设施。

       

      11 月 27 日,「InfraTalk」第三期“AI 存储”专场,将在视频号直播间进行。

      扫码预约,不要错过!



      2025-11-26 11:0415

      评论

      发布
      暂无评论

      少年与阿童木:一场软件竞技赛背后的智能未来

      脑极体

      机器人 华为云

      《雄安新区2022年大数据研究报告》发布

      百度开发者中心

      智慧城市

      YashanDB V22.2重磅发布!七大亮点带你了解新特性

      YashanDB

      数据库

      linux设置虚拟IP

      linux大本营

      Linux 网络 IP地址

      KubeVela:一场向应用交付标准的“冲锋”

      RRLL

      阿里云 数据湖 云原生 KubeVela 应用交付

      c++17使用多线程编程的时候在编译时要怎么处理

      linux大本营

      多线程 C++

      使用tc+iptables对指定的socket进行限速

      linux大本营

      TCP socket 网络 iptables

      spdk里是怎么运行nvmf-tgt的

      linux大本营

      spdk

      智汇昌平,数赢未来——宝德京产自主创新服务器正式下线

      极客天地

      低代码是开发的未来,还是只能解决边角问题的鸡肋?

      引迈信息

      前端 后端 低代码 JNPF

      读《分布式商业》有感

      后台技术汇

      分布式 三周年连更

      c++单例模式的所有面经

      linux大本营

      设计模式 单例模式 C++

      用c语言写一个目录遍历程序

      linux大本营

      C语言 目录遍历

      云BI产品瓴羊Quick BI,为企业数字化转型保驾护航

      巷子

      人工智能时代来临,殊不知低代码早已出手

      加入高科技仿生人

      人工智能 低代码 数智化 数智融合

      ThingsBoard 前端项目内置部件开发

      echeverra

      thingsboard

      人工智能训练数据集:基础与发展

      数据堂

      【Python实战】Python采集度贴吧排行榜

      BROKEN

      三周年连更

      有奖征文丨【玩转Cloud Studio】第二季来啦!

      CODING DevOps

      Cloud Studio 云端IDE 在线编程 有奖征文 活动推荐

      从 Milvus 2.2 到 2.2.6,我们是如何持续稳定升级的

      Zilliz

      非结构化数据 Milvus 向量数据库

      当生成式AI照进医疗,医患关系将何去何从?

      白洞计划

      医疗

      Cloud Studio 一个好用的在线编程工具

      CODING DevOps

      开发 部署 Cloud Studio 云端IDE 在线编程

      法大大发布数智化签约管理平台,赋能企业高效增长

      人称T客

      人脸识别:城市公共交通

      百度开发者中心

      人工智能 人脸识别

      eBPF的发展演进---从石器时代到成为神(三)

      统信软件

      操作系统 Linux内核

      5.10版本linux内核的使用slub的kmem_cache_init函数解析

      linux大本营

      内存管理 Linux内核 slub slab

      大淘宝技术斩获NTIRE 2023视频质量评价比赛冠军(内含夺冠方案)

      阿里巴巴大淘宝技术

      视频 NTIRE

      极客时间「大师课·深度剖析 RocketMQ5.0」上线啦,欢迎免费领取!

      Apache RocketMQ

      云原生 消息队列

      百度与用友网络签署战略合作

      百度开发者中心

      智能制造 文心一言

      万卡时代,企业需要怎样的算力集群?_云计算_陈姚戈_InfoQ精选文章