写点什么

Agent 规模化落地前夜,AI Infra 的难题全都暴露了

  • 2025-11-20
    北京
  • 本文字数:3343 字

    阅读完需:约 11 分钟

Agent规模化落地前夜,AI Infra的难题全都暴露了

随着 AI Agent 在企业的大规模落地,中国的云服务市场正在出现结构性转折。基础设施的角色随之发生改变,从提供算力的工具,转向决定业务能否真正跑通的底层系统。


IDC 的研究数据显示,2025 年-2029 年,中国云服务市场的增速放缓,而以训练、推理和智能体为核心的 AI 基础设施市场正在迅速扩大。


需求侧,企业已经不再满足于资源规模的扩张,而是开始更关注云架构是否能直接提升业务效率、支持智能化场景落地;供给侧,云厂商正在从通用云走向行业化 AI Infra,围绕数据结构、模型类型与场景约束提供更专业的算力与 PaaS 能力。


在这一过程中,大多数企业都在面临相似问题——AI Infra 是否能适配真实场景?成本是否可承受?模型、系统与场景之间是否能形成闭环?


为了帮助更多 AI 从业者、企业决策者在数智化转型中,做出更好的业务决策,InfoQ 联合腾讯云发起了「InfraTalk」直播 IP 系列,聚焦云基础设施的技术演进与产业价值,邀请行业分析师、企业实践者与云厂商共同探讨 AI Infra 的能力框架、落地路径与未来趋势。


以下内容为第一期圆桌直播内容精要。InfoQ 特别邀请 IDC 高级研究经理张犁、智诊科技产品总监罗龙生、腾讯云异构计算高级产品经理黄阳,解析 AI Infra 的六大核心能力、Agent 规模化的结构性难题、AI Infra 价值闭环衡量标准,和未来行业竞争焦点。


完整回放详细看


00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    宝藏观点集中看


    00:00 / 00:00
      1.0x
      • 3.0x
      • 2.5x
      • 2.0x
      • 1.5x
      • 1.25x
      • 1.0x
      • 0.75x
      • 0.5x
      网页全屏
      全屏
      00:00


      扫描二维码,获取腾讯云联合 IDC 发布的《AI Infra:加速智能体落地的基础架构发展趋势与产业实践》白皮书,了解更多行业知识。


      重估 AI Infra 价值


      随着 AI 应用进入规模化落地阶段,Agent 也逐步快速渗透到各个行业。企业在评估 AI Infra 时,不再只关注芯片种类或资源规模,而是从性能优化、成本管控、运营效率、安全保障、应用落地等角度,全方面衡量其能力。


      当一种基础设施尝试将价值评估的尺度,从技术参数切换到业务价值,供给侧、消费侧都需要统一认知。


      IDC 总结出了 AI Infra 应具备的六个关键模块:


      • 异构算力调度能力:针对当前算力多元化的发展趋势,AI Infra 通过算力调度技术和平台,实现对异构算力芯片的深度适配和统一纳管,能够根据不同业务场景进行高效的算力选型、编排和分发;

      • 智能应用支撑能力:基于云原生调度编排、微服务框架和高性能应用服务,AI Infra 针对智能应用提供开发、部署、运维的全生命周期管理,具备支撑复杂多业务场景智能应用的能力;

      • 全链路数据管理能力:基于湖仓一体对数据采集、清洗和预处理流程的支撑能力,以及向量数据库对向量数据检索的支撑能力,AI Infra 具备针对 AI 模型开发和部署的全链路数据管理能力;

      • 训推一体化和加速能力:AI 训推平台针对 AI 模型训练/微调和推理框架的支撑能力,以及对于 AI 训推流程的加速能力,成为 AI Infra 在 AI 模型开发层面的核心技术平台;

      • 安全体系构建能力:基于隐私计算和联邦学习的核心安全能力,AI Infra 融合基础云安全能力,构建适配 AI 模型和应用的智算安全体系,保障 AI 模型和用户敏感数据的安全;

      • 全流程场景化服务能力:针对智能体(Agent)在各行业领域加速应用的趋势,AI Infra 具备支撑智能体开发与应用全流程的场景化服务能力,为 MCP 等智能体相关技术提供了稳定的运行环境。


      六大关键模块帮助企业从宏观上衡量 AI Infra,但具体企业的发展阶段中,这些能力的优先级可能被重新排序,不同阶段呈现出不同的侧重点。


      在训练阶段,客户更重视的是数据处理效率与训练的稳定性。以腾讯云服务的千卡级训练客户为例,训练任务一旦中断,每小时可能造成数十万元损失。为此,腾讯云构建了多层级指标监控体系,实现 7×24 小时全局监控、五分钟内恢复训练、十分钟内修复基础设施,并尽量减少人工介入,以保证训练任务连续性。


      在推理阶段,客户侧重点转向推理效率与成本控制。无论是智诊科技这样的医疗公司,还是手机厂商,大规模推理的成本结构直接决定了业务可持续性。同时,医疗和金融等行业因数据不能出域,对推理环境的安全性、部署复杂度和可信度提出更高要求。


      围绕这些需求,腾讯云推出了推理集群服务,将推理加速、安全体系、扩缩容、调度等能力全部封装进统一底座,帮助客户摆脱自行搭建推理环境的负担,让企业可以把精力集中在模型和业务本身。

      AI Infra 的风险和成本控制


      明确了衡量 AI Infra 能力的宏观框架,实际落地过程中,企业还需要用可量化的方式,判断 AI Infra 在具体业务场景的价值。


      智诊科技产品总监罗龙生给出了一个十分有启发性的方法,即衡量“跑通一个最小业务闭环的成本与周期”


      这个闭环包括三个阶段:


      1. 数据输入:如医院海量、非结构化的业务数据进入 AI 平台;

      2. 价值处理:完成数据清洗、模型训练/精调,并部署为可调用的 Agent 服务;

      3. 业务反馈与再循环:Agent 在真实应用场景中产生有效互动,这些数据再回流推动下一轮模型迭代。


      当数据飞轮持续转动,模型和场景有效互动,推理的单位成本低于业务价值时,AI Infra 才真正形成可持续的价值闭环。


      Agent 的大规模应用,也对企业的成本控制提出了更高要求,控制成本,避免账单爆炸成为企业的核心能力。


      “AI 时代的应用,跟互联网时代的应用不一样,随着用户量增加,成本是增加的,”智诊科技产品总监罗龙生表示,“这时,解决 Token 问题的核心工作是去做非常精细化的系统工程,而不是依赖某个单点技巧。”


      在技术架构上,最关键的是上下文工程与分级模型路由。不能将所有任务都交给最大模型,而是要先进行意图分类、结构化抽取等步骤,把业务拆解成多个节点,只有核心任务才交给大型模型处理。这样既保证效果,又能显著减少高成本 Token 消耗。


      第二个技术支点是记忆系统设计。为了保持回答连贯,很多场景需要长上下文,但直接把所有历史对话送进模型不仅成本极高,还会导致上下文腐烂。因此必须构建独立的记忆体系,对交互内容进行结构化压缩、低成本存储,并在新请求到来时只检索与当前任务最相关的记忆片段,通过向量模型实现高质量召回,从源头上削减 Token 量。


      在产品层面,应用需要引导用户提出更精准的问题,减少无效轮次,并探索差异化付费机制,让重度、高价值场景产生可持续收入,以抵消推理成本。


      在平台层面,需借助云厂商能力,例如预算告警、实时监控、推理加速、模型量化与剪枝等优化手段,进一步降低整体 Token 消耗和算力成本。


      同时,互联网时代就存在的“单一云绑定”风险,如今在 AI Infra 上被进一步放大。


      对此,腾讯云异构计算高级产品经理黄阳表示,单一云绑定并非必然结果,而是可以被管理与规避的挑战


      他指出,企业的集中需求,正促使整个 AI Infra 行业都在朝着更灵活、更智能的方向发展。未来的基础设施需要支持不同厂商的芯片、分布式云架构、多云策略,并允许企业按需将 AI 工作负载部署在公有云、私有云、自建数据中心或边缘节点。


      黄阳强调,腾讯云正在将这一理念落到实处:一方面通过机器学习平台提供多芯片纳管与开源模型支持,降低企业上云门槛;另一方面将推理框架等技术完全开放到 GitHub,减少对客户的技术绑定。他认为,虽然绑定担忧真实存在,但随着 AI Infra 走向开放与灵活,企业无需过度焦虑这一问题。

      AI Infra 下一阶段的竞争逻辑


      随着 Agent 在行业中加速落地,AI Infra 的竞争开始从“比技术”走向“比业务价值”。过去的差异主要集中在芯片供给、训练性能和算力成本上;未来真正拉开距离的,将是平台能否让企业以更低成本、更高自由度和更完善的生态部署 AI。


      嘉宾们普遍认为,在当下,算力成本仍是最核心的竞争力;并且算力成本仍是腾讯云内部最核心的北极星指标。不过,这一阶段的差距会随着硬件迭代与市场竞争迅速收窄。


      当价格差异不再显著,竞争焦点会自然转向平台开放性。平台能否兼容更多模型框架、工具链是否完善、数据与算法接入是否便捷,以及开发者能否不被锁定在封闭体系中,将直接决定企业的开发效率与创新空间。


      最难形成壁垒的,但也最具长期价值的,则是生态整合能力。在心智上,是否能成为开发者遇到问题时首先求助的平台;业务上,平台能否为企业提供触达用户的通路、汇聚上下游合作伙伴、形成完整产业链。最终,应用方会选择“既能帮我省钱,也能帮我赚钱”的生态。


      未来 AI Infra 的竞争将经历从成本、开放性到生态的逐层演化。而真正的竞争力,将来自一种综合能力——让企业以更低成本、更大选择空间和更完整的生态来部署和运营 AI。


      11 月 20 日,「InfraTalk」第二期“AI 算力”专场,将在视频号直播间进行。


      扫码预约,不要错过!



      2025-11-20 14:2315

      评论

      发布
      暂无评论
      发现更多内容
      Agent规模化落地前夜,AI Infra的难题全都暴露了_云原生_陈姚戈_InfoQ精选文章