
经过 2025 年的试水,Agent 的落地效果将在 2026 年受到集中检验。能否持续产生业务价值,将成为衡量 Agent 成功与否的核心标准,而支撑其稳定、高效运行的底层 AI Infra,也随之被推至台前。
随着大模型技术从实验室走向产业,AI 应用正从“技术验证”阶段迈向“规模化商用”的深水区。企业不再满足于模型的单点效果,而是期待 AI 能融入业务全流程、创造可衡量的商业价值。
在这个背景下,单一的算力堆砌已无法应对系统性挑战,企业需要的是“算存网数一体的高性能智算底座”。这一架构趋势强调计算、存储、网络与数据能力的深度融合与协同优化。计算层面,需支撑海量训推需求和异构算力高效调度;存储需灵活应对海量、多模态的复杂数据;网络层面,需要保障极致低延迟与高吞吐;数据则需实现从采集、治理到检索的全链路智能管理。
今年,领先云厂商均在积极升级其计算、存储、网络与数据能力,以构建更适配 Agent 大规模落地的新一代基础设施。例如腾讯云,其 2024 年推出的新 AI Infra 品牌“云智算”,今年动作频频:4 月,基于对 AI 云基础设施强需求、训推高频应用的行业——出行领域,发布了行业云智算 AI Infra 解决方案;5 月,腾讯云智算,全面扩展至全场景 AI 应用,技术能力全面升级,从高效、可靠、易用三大价值角度,支撑企业加速 AI 落地;9 月针对企业级 Agent 需求,发布 Agent Runtime 解决方案及基础设施专家服务智能体 CloudMate;10 月推出自进化运维 Agent 平台,技术迭代快速。
这些密集的布局与迭代,共同指向一个更深刻的趋势:智算,即算存网数一体的高性能 AI Infra,预示着云厂商们的下一个战场已经形成。
算力和网络协同,释放集群极限性能
IDC 与腾讯云联合发布的白皮书《AI Infra: 加速智能体落地的基础架构发展趋势与产业实践》指出,AI Infra 正经历从“云 +AI”向“云原生 +Agent 协同”的架构重构。
实现这一重构,需建立实时推理网络,以支撑智能体决策所需的毫秒级延迟;构建统一的异构算力池,实现对多元算力的高效调度。
未来的智算底座必须像高度协同的神经系统,确保数据在计算单元间无阻塞地高速流动,因为任何环节的延迟或瓶颈都将导致整体响应能力的衰减。以典型的 AI 训练流程为例,它涉及数据加载、GPU 计算、跨卡通信、权重更新等多个环节,其中数据读取效率、计算协同能力以及网络通信质量,共同决定了整体计算效率。
在高性能计算领域,这被称为“木桶效应”——计算、存储、网络任一环节的短板,都会导致昂贵的集群算力无法充分释放。
如何打破木桶效应?
面对高性能计算中的木桶效应,腾讯云 HCC 构建了一套从底层硬件到上层软件的优化体系,旨在协同计算、存储、网络,将大规模集群的潜力彻底释放。
HCC 首先直面大规模 AI 训练的核心矛盾:由于模型参数过于庞大,机器间的互联完全依赖于网络,网络时延会直接导致高速运转的 GPU 进入等待状态,因此网络极易成为整个系统的性能瓶颈。而简单地增加 GPU 节点并不能带来线性的性能提升,网络拥塞和拓扑复杂性会严重损耗集群的整体算力。
腾讯云还为星脉网络设计了高性能集合通信库 TCCL,避免因网络问题导致的训练中断等问题。调度系统为 GPU 卡间的每一次通信智能选择全局最优路径,避免拥堵。同时,通过亲和性调度,系统优先调度同一交换机下的 GPU 进行通信,让数据避免不必要的跨机传输。
训练过程中,Checkpoint 和 KV Cache 的读写对存储 IO 吞吐提出极限要求。同时,海量的训练数据通常存放在远端的对象存储仓库中,每一次训练迭代都需要数据经过远程网络 → 本地磁盘 → 内存 → GPU 显存的链路。
为加速数据读取,腾讯云设计了多层次存储加速方案,避免 GPU 空闲等待网络数据传输。
在软件与运维层,腾讯云致力于将硬件效能与系统稳定性提升到极致。
作业集群管理系统会全面监控资源利用率、任务编排与框架状态。当训练作业出现异常时,系统能基于 Checkpoint 在 5 分钟内实现任务级快速自愈;若 GPU 在训练过程中出现节点一场,集群可在 10 分钟完成故障节点剔除与恢复,保障长周期训练任务的连续性。
训练框架上,对于 PyTorch 等主流训练框架做软件优化,充分释放硬件潜力。
在推理场景,腾讯云自研 HML 模型权重分发技术,可以让模型快速加载到显存,满足实时扩容场景和模型切换场景的弹性需求。
为了加快推理场景,腾讯云还开发了多机 KV Cache 缓存技术,将 KV Cache 存储到磁盘,方便未来多轮对话等请求场景调用。今年,腾讯云还新推出推理集群服务,集多样化模型、弹性算力与多层级的安全防护为一体,融合推理加速、机密计算、智能监控日志分析等核心功能, 保障 AI 应用开发落地。
通过全栈协同的软硬件优化,腾讯云 HCC 系统破解了大规模 AI 训推中的“木桶效应”,将大规模 GPU 集群的潜力彻底释放,为 AI 训练与推理提供稳定、高效且极具确定性的算力基石。
目前,腾讯云异构计算已经服务国内 90% 的头部大模型客户,覆盖大模型训练与推理、智能驾驶、互联网应用、广告搜索推荐、图像处理、具身智能、科学计算、自然语言处理等丰富场景。
AI SEMI×腾讯云:赋能半导体研发效率提升
企业的预算管理就像“管家过日子”,AI Infra 的成本,最终都要映射到具体业务价值。谁能在同等条件下,提供帮助企业优化成本结构的 AI Infra,谁就占有市场先机。
腾讯云在打破“木桶效应”上的努力,尤其是星脉网络在大规模集群扩展与效率控制上的能力,正在诸如半导体研发等高端制造领域转化为直接的生产力。
专注于用 AI 赋能半导体制造的 AI SEMI,业务涉及芯片仿真、良率分析等复杂计算,对算力的稳定性、扩展效率及 TCO 有着严苛要求。AI SEMI 采用混合云架构,既在公司和客户本地部署算力,也利用腾讯云的弹性资源。
腾讯云平衡极致算力与网络调度的能力,已在实际业务中转化为显著优势。在采用腾讯云 HCC 解决方案后,AI SEMI 一项光刻仿真任务的完成时间,从数周缩短至数天,不仅加速了研发迭代周期,更通过精准的弹性伸缩,将总体算力成本优化了 30% 以上。
AI SEMI 创始人兼 CEO Yoyo Lu 曾指出,客户在采用大规模 GPU 集群时,最关切的问题之一便是算力扩展后的实际效率损耗。腾讯云星脉网络所提供的“无损”特性和高达 95% 的线性扩展比,为解决这一顾虑提供了关键技术支撑。这意味着,当半导体企业为加速芯片设计而扩容算力时,能够获得近乎线性的性能回报,有效控制算力成本。
云存储,释放数据价值
在关于 AI 基础设施的讨论中,存储常常被置于聚光灯外。然而,当模型参数和数据量呈指数级增长时,存储能力已成为制约 AI 生产力释放的关键瓶颈。继“算力缺口”之后,行业正面临存储挑战——市场缺乏能够匹配 AI 工作负载特性、兼具高性能与高性价比的存储架构与服务。
这种结构性缺口对存储系统提出了前所未有的复合型要求:它既需要作为海量多模态数据的统一承载平台,又要支撑从数据预处理、模型训练到推理部署的全链路高效流转;既要实现精细化的数据治理与合规管控,又必须在全生命周期内平衡性能、成本与扩展性。
在这一背景下,数据基础设施的角色正在发生根本性转变。腾讯云存储研发总监程力认为,作为底层基础设施,存储必须向上深度融合,与容器、云函数、AI 平台等上层服务实现深度集成与资源协同调度。其核心价值已超越提供存储空间本身,而在于作为数据流转的智能引擎,无缝融入企业的整体 AI 工作流,确保数据能在计算与训练环节高效流动。
Data Platform,更智能的云存储
腾讯云构建的“统一存储 + 智能加速 + 全链路处理 + 智能检索”Data Platform 平台,正是上述理念的技术实现。
Data Platform 以对象存储 COS 为基础底座,承载训练数据、预处理样本及多模态数据,在提升系统性能的同时有效控制存储成本。
同时,Data Platform 提供 GooseFS 高性能存储加速层,服务于近计算端的数据缓存加速,兼容多种语义可与计算生态无缝融合,满足大规模数据处理和训练对高性能存储,以及 Checkpoint 写入需求。
数据治理层面,数据万象 CI 提供近存储端的处理能力,其智能检索组件 MetaInsight 支持对元数据及全媒体内容的跨模态检索,在保障数据可计算性的同时,实现内容安全与合规审查。
值得注意的是,腾讯云将高性能检索与智能缓存能力进行了原生融合。MetaInsight 结合 GooseFS,能够主动从 COS 数据湖中识别并提取高价值数据,通过智能化的缓存与调度策略,将其高效投递至计算节点,实现“数据向计算靠拢”。例如在自动驾驶场景中,该组合可实现跨存储桶的数据智能标识与统一管理,并根据不同计算任务的实时需求,动态、就近地供给数据。
AI 时代下,云存储不再只是支撑系统运行的成本项,而是成为释放 AI 价值的加速器。腾讯云的云智算存储方案正是这一理念的集中体现。
文远知行×腾讯云:为数据洪流提供可无限拓展的存储空间
传统云存储方案的局限,在自动驾驶行业尤其明显。
文远知行作为业务遍布全球、全天候提供服务的自动驾驶公司,每时每刻都在产生海量、多模态的非结构化数据——这要求团队建立无缝扩展、统一管理、且不影响核心业务性能的全球化存储方案。
腾讯云等厂商提供的公有云服务,在文远知行实现弹性存储上起到了重要作用。
文远知行构建了一套精密的混合云存储架构,以广州和硅谷的自建数据中心为核心,结合腾讯云等云厂商做公有云延伸,满足数据存储需求。
通过将极低频的冷数据自动、透明地迁移至腾讯云对象 COS 的低频或归档存储层级,腾讯云等厂商提供的公有云实际上成为了一个可无限扩展的“数据冰柜”,而所有数据流动对上层业务完全透明,业务侧始终访问统一的文件索引。
针对大团队协作,文远知行实现了细粒度带宽管理机制,可根据业务优先级(如高优训练任务与低优归档任务)划分带宽通道,确保即使归档任务全力上传至公有云,核心数据处理带宽仍不受影响,从而保障多租户环境下的服务质量。
通过自建数据中心与自研存储系统,并与腾讯云对象存储 COS 合作,构建混合云架构,文远知行持续探索 AI 存储的成本、性能和效率最优解,也成为重数据场景中落地 AI 存储体系的标志性案例。
打造 Agent 规模落地需要的 Infra
随着 AI 应用进入规模化落地阶段,Agent 正快速渗透至各行各业,成为企业数字化转型的核心驱动力。
到 2027 年,部署 Agent 的企业数量将翻倍,对 AI 智算的需求也将显著增长。并且,Agent 的落地将从医疗、教育、制造等领域,进一步延伸至对实时性、可靠性要求极高的具身智能等前沿场景,底层基础设施必须具备更快的模型推理能力、更灵活的工具集成与更可靠的持续服务能力。
Agent 能否实现大规模、高质量的业务承载,直接取决于基础设施是否具备模型推理的实时响应能力、外部工具的安全灵活集成机制,以及复杂服务链路的长期稳定保障。
面对这一趋势,作为“数字化助手”的腾讯云,在 2025 年再次升级其云智算全景能力,以加速 Agent 从实验室走向生产场景。
更懂 Agent 的 Infra
今年 9 月,腾讯云在 Agent Infra 能力上做了两项关键升级。
纵向,推出 Agent Runtime,通过提供运行引擎、云沙箱、上下文服务、网关、安全可观测五大组件,为 AI Agent 的构建、部署和运行提供坚实底座。值得一提的是,Agent Runtime 可以提供个轻量级高并发的运行环境,目前支持百毫秒级冷启动,并能提供数十万级沙箱并发,适配大规模 Agent 应用。
横向层面,腾讯云推出基础设施专家智能体 CloudMate。CloudMate 它提供告警收敛治理和风险主动拦截能力,在用户操作云资源前预测并呈现影响,从源头规避配置风险,并能在编码阶段检测低效 SQL 语句。CloudMate 专注于复杂运维场景下的故障定位与根因分析,通过构建自动化评估 - 探索 - 总结 - 检验闭环系统(独家),处理时效从传统的小时级提升至分钟级,无需人工干预完成全链路故障诊断。
在模型推理侧,腾讯云也着力提升效率与性能。针对手机 AI 助手等需要快速弹性伸缩的场景,传统集群模型加载往往耗时十几分钟,而依托星脉网络,腾讯云将模型分发时间大幅压缩至 4 秒内,实现了近乎实时的扩容响应。
同时,腾讯云推出 TACO DiT 推理引擎,实现文生图模型推理加速,覆盖文生文、文生图、文生视频等多种模态,并采用 KV Cache、优化通讯协议等先进方案,进一步提升了高并发下的推理稳定性与效率。
针对业界关注的 Agent 发展路径——通用化还是行业化,腾讯云也给出了清晰的答案。
在 InfraTalk 直播中,腾讯云异构计算高级产品经理黄阳指出,从降本增效的角度出发,必须打造标准化的技术底座;而面向未来,深入业务场景的行业 Agent 将比通用 Agent 更强、规模更大。因此,腾讯云坚持同源同构原则,采取标准化底座 + 行业化解决方案,灵活适配不同行业对基础设施的要求。
这一模式具体体现在对不同类型企业和不同发展阶段客户的精准支持上。大模型训练企业更关注训练效率与稳定性,腾讯云可提供更大规模集群与更强的故障自愈能力。对于具身智能或自动驾驶企业,由于模型规模相对更小,则可通过优化后的 vRDMA 网络提供更高性价比的训练方案。而对于对数据安全与合规有严苛要求的政企客户,腾讯云则提供分布式云或专有云部署选项。
同时,腾讯云为不同阶段的企业也提供了灵活选择。面向开发者,提供开箱即用的 SaaS 服务与 API;面向中小企业,提供可快速私有化部署的平台,并支持微调与深度定制;面向大型企业与生态伙伴,则开放更全面的能力,帮助客户满足高并发、多模态的复杂训练与推理需求。
智诊科技×腾讯云:让创新科技公司驾驭大模型
Agent 规模化的基础在于,是否能否在真实业务中稳定运行、持续响应,并承载高并发与复杂流程。
在医疗场景中这一要求尤为突出。医疗 Agent 并非一次性问答工具,而是需要长期在线,深度参与诊疗支持与健康管理流程的数字助手,一旦出现延迟或中断,都会直接影响用户体验甚至业务连续性。
正是在这样的需求背景下,腾讯云与 AI 医疗公司智诊科技展开合作,探索 Agent 在真实医疗业务中的规模化运行路径。智诊科技自研千亿参数的多模态医学大模型 WiseDiag,并提供 Agent、医学 OCR 等服务,目标是将 AI 能力真正嵌入诊疗与健康管理流程。
对于研发大模型的创新科技公司来说,构建并维护大规模算力集群非常有难度。但最大的障碍并非 GPU 本身,而在于 GPU 节点之间的协同效率。
腾讯提供的智算集群拥有专为大模型优化的星脉高性能网络,极大地降低了大规模 GPU 集群间的通信损耗,让智诊科技的模型训练迭代速度提升 20%。
智诊科技充分发挥了腾讯云 GPU 在训练和推理集群上的性能优势和产品算力优化能力,相较于友商同量级产品具备显著优势,有力支持了“好伴 AI”个人健康管理应用 C 端的高并发访问需求。
同时,智诊科技采用了高性能并行文件存储 CFS Turbo,将医疗训练样本、训练检查点和最终模型文件保存在统一存储中,贯穿样本准备、模型训练、模型推理的全流程,提高了 GPU 利用率。
腾讯云与智诊科技合作,提供了一整套 Agent 原生的基础设施,让智诊科技能聚焦于医学 AI 算法研发和业务价值本身。
AI 掀起的浪潮,正在将中国云市场推入一个以“智算”为关键词的新周期。
历经市场教育的中国企业,需求已变得更加审慎与务实——不再只满足于技术的可用,还要求云与 AI 的深度协同能直接转化为可衡量的业务价值。
腾讯云推出的“云智算”,正是对这一趋势的回应。通过整合高性能计算、存储、网络、数据库、安全等全栈能力,腾讯云构建了兼具极致性能与业务弹性、既能开放融合又能安全可控的基础设施,将技术积淀,转化为客户的竞争优势。







评论