硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

Gartner 解读:AI 浪潮下的基础设施战略,企业如何平衡创新与韧性

  • 2025-09-04
    北京
  • 本文字数:5685 字

    阅读完需:约 19 分钟

大小:2.88M时长:16:46
Gartner解读:AI浪潮下的基础设施战略,企业如何平衡创新与韧性

在当前生成式 AI 引领的技术浪潮中,动辄“千卡、万卡”的智算中心(AIDC)建设已成为焦点,但技术的高速发展也给企业带来了关于战略布局、风险防范与成本控制的复杂挑战。在近日 Gartner 举办的一场线上分享会中,分析师 Elaine Zhang 围绕最新的基础设施技术成熟度曲线,深入剖析了企业应如何制定兼具前瞻性与务实性的 AI 基础设施战略。


Elaine Zhang 指出,今年的基础设施战略成熟度曲线延续了去年的核心框架,依然围绕四大主题趋势展开,这些趋势为企业决策者提供了宏观的思考坐标。

Gartner 基础设施战略成熟度曲线四大主题解读


基础设施自主可控进程加快


鉴于当前地缘政治格局的演变,中国企业正日益倾向于采纳自主研发的基础设施软硬件及工具,以有效规避可能的风险。在此背景下,国内软硬件厂商的研发实力亦实现了显著提升,并获得了广泛应用。在今年的技术成熟度曲线中,一系列本土创新技术,例如国产人工智能处理器(Homegrown AI Processors)、自主可控的数据库管理系统(DBMS Self-Sufficiency)、国产服务器虚拟化软件(Revirtualization in China)以及国产芯片服务器(Local Chip Servers)等,均呈现出显著的加速发展态势。


特别值得关注的是国产 AI 芯片领域。根据 Gartner 于 8 月发布的中国芯片新兴技术报告预测:至 2030 年,中国本土 AI 芯片厂商有望在中国国内 AI 芯片市场中占据逾半数份额,同时在海外市场也将获得超过 10%的市场份额。这一预测进一步印证了我们所提及的自主可控战略,特别是在关键技术领域的加速推进与实施。

生成式 AI 的加速采用


今年上半年,特别是年初以来,生成式人工智能(Generative AI)领域取得了显著进展,其变革性潜力正逐步显现。其中,DeepSeek R1 模型的发布尤其引人注目。该模型作为一款高效的推理型人工智能模型,成功地显著降低了人工智能推理所需的计算资源投入,从而有效优化了成本并提升了部署效率。这一技术突破促使众多企业开始积极探索并应用 DeepSeek 模型,以部署各类人工智能应用。


与此同时,在近几个月内,人工智能代理(AI Agent)技术亦成为业界焦点,引发了广泛讨论和高度关注。AI Agent 旨在通过赋予人工智能系统规划、决策与执行任务的能力,使其能够自主或半自主地完成复杂指令,从而有望大幅提升工作自动化与智能化水平。这项创新技术吸引了大量企业的积极关注,并促使它们纷纷投入到实际的应用探索与实践中。


然而,随着这些前沿人工智能技术在企业级应用中的深入部署,对底层基础设施的服务交付能力提出了更为严苛的要求和新的挑战。企业在实施这些技术时,不可避免地对高性能计算资源、弹性伸缩能力、数据处理效率、成本效益以及稳定可靠性等方面的基础设施服务提出了更为迫切的需求。

数字化底座的稳定性与韧性升级


随着企业广泛采纳人工智能应用,以及深入运用各类云服务(包括公有云与私有云)和国产软硬件技术,其应用系统的复杂性及数量均显著增加。这种增长对企业的基础设施及其运维团队提出了更为严苛的要求与挑战,尤其体现在对系统“稳定性”和“韧性”的追求上。


鉴于此,我们观察到各行各业正积极推进数字化转型。在此转型过程中,基础设施作为承载所有数字化进程的基石,其具备高可用性和卓越韧性的能力至关重要。这里的“韧性”是指当底层平台和应用系统面临不确定性问题或外部冲击时,它们能够有效抵抗、迅速恢复,并持续提升自身适应性的能力。


为了进一步增强基础设施的性能和韧性,Gartner 今年特别引入并关注了两项创新技术:低轨卫星通信(LEO Satellite Communication)和安全访问服务边缘(SASE)。这两项技术分别从网络和安全维度提供解决方案,旨在引导基础设施团队在构建技术架构时,将这些新兴技术纳入考量,以确保基础设施在应对未来挑战时,能展现出更强的性能和更高的韧性。

企业应保持运营效率


企业在基础设施方面的投入,其主要开销集中于维持日常运营效率。然而,近年来 IT 预算的增长乏力,甚至呈现出缩减趋势,这对负责基础设施的部门带来了双重压力:即在提升运营效率的同时,还需进一步严格控制并削减运营开支。在此背景下,我们观察到一系列新兴技术和创新方案能够被有效利用,从而助力这些部门更高效地运营。这些技术创新有助于全面提升效率并显著降低运营成本,从而应对预算紧缩所带来的挑战。

热点聚焦:AI 基础设施、GPU 即服务、生成式 AI 一体机、国产芯片、分布式混合基础设施

AI 基础设施建设:注重 ROI 与内部人才、技能储备


随着人工智能技术的飞速发展和日益普及,企业对强大且灵活的 AI 基础设施的需求变得尤为迫切。这不仅是为了支持 AI 解决方案的开发与运行,更关键在于能够将其高效部署至特定应用场景或企业指定的物理位置。值得注意的是,我国政府高度重视 AI 产业发展,已将其提升至国家战略层面,旨在推动 AI 深度融入各行各业,促进整体经济增长,提升数字生产力,并有效应对社会挑战。


根据 Gartner 的定义,AI 基础设施是一个涵盖广泛需求的概念。它被界定为支持人工智能和机器学习(ML)工作负载的开发、部署与管理所必需的完整技术栈和技术系统。这套基础设施由多种协同组件构成,旨在提供高效执行 AI 任务所需的计算能力、网络能力、存储能力,以及关键的 AI 工程化工具,如中间件和模型库等。


AI 基础设施的一大显著特点是其部署的灵活性与适应性。根据实际需求,不同的 AI 工作负载可以被部署在最优化或最具战略意义的位置,包括本地数据中心(On-premises)、公有云环境,乃至边缘计算节点。鉴于不同企业或行业的特定需求,AI 基础设施的部署模式呈现多样化,可以是纯公有云部署、本地部署、托管式边缘部署,亦或是混合部署模式,每种模式均需坚实的 AI 基础设施提供支撑。因此,AI 基础设施被视为当代人工智能进步的基石,能够支持极其多样化的应用场景。


然而,对于企业而言,基础设施部门在规划并投入 AI 基础设施建设时,必须审慎评估其潜在风险与回报。首先,AI 基础设施的初期投资通常十分巨大,因此确保合理的投资回报率(ROI)是企业必须关注的核心问题。


其次是人才与技能储备的挑战。传统的企业数据中心管理团队可能对现有架构驾轻就熟,但构建和维护专门支持 AI 工作负载的数据中心环境则面临新的技术挑战。这不仅涉及底层硬件的革新,还包括上层软件环境的变化,对运维人员的技术能力提出了更高的要求。


此外,随着国内自主可控产品和国产替代方案的涌现,企业内部可能面临异构架构的复杂性。在 AI 生态系统尚未完全成熟的背景下,通过软件实现统一调度与资源管理变得尤为关键,但这对于企业而言往往是一项艰巨的任务。


综上所述,企业在制定 AI 基础设施战略或采纳相关创新技术时,必须全面考量自身的需求、现有能力与未来发展规划,力求精准投资,避免过度投入,从而最大化 AI 基础设施的战略价值。

生成式 AI 一体机:谨慎选择,避免重复性投资


今年初开始,市场涌现出诸多大模型一体机产品,甚至一度出现供不应求的局面。值得指出的是,“一体机”并非新生概念,早在数年前,集成式解决方案已在不同技术领域有所呈现。在此背景下,生成式 AI 一体机(Generative AI All-in-One Machine)特指一种为运行 AI 工作负载而设计的集成计算设备。这类设备通常集成了 GPU、AI 加速器、服务器管理系统,以及上层的基础软件、模型库、AI 工程化工具,并可选择性地预装 AI 应用。它们旨在为不同用户群体和企业提供“开箱即用”(Out-of-the-Box)的体验,从而显著缩短 AI 部署周期,降低对专业技能的要求,并满足数据本地化的合规需求,因此获得了众多企业机构的关注与采纳。



在投资此类技术时,企业需审慎考量其内部 AI 部署战略以及对未来基础设施的整体规划。鉴于市场技术的快速迭代,一体机的价值可能面临迅速贬值的风险,其技术门槛和适用场景也具有一定的局限性。因此,在投资一体机之前,建议企业与 AI 项目团队及相关业务利益方紧密协作,明确具体的 AI 用例。这包括厘清何时适用一体机、何时需依赖数据中心资源来支撑 AI 运营,并规划当未来需部署多个 AI 应用时如何进行选择,避免重复性投资。此外,由于进入该领域的厂商众多,其商业模式、服务能力、技术水平及长期支持策略差异显著。因此,企业在选择一体机供应商时,务必进行全面评估,确保供应商能提供产品整个生命周期的持续支持,而非仅限于一次性销售。

GPU 即服务:新兴 AI 算力模式的战略考量


如前所述,AI 应用的部署地点因数据隐私、安全要求、应用规模等因素而异,可能涵盖企业自建数据中心、办公室(如一体机),或公共云环境。在各类部署模式中,一项今年新纳入技术成熟度曲线的创新技术是“GPU 即服务”(GPU as a Service),它随着近年来生成式 AI 的蓬勃发展,已在市场上涌现出诸多服务提供商。



“GPU 即服务”本质上是一种基于云计算的消费模式,允许企业按需获取 GPU 算力资源。这种服务通常由公有云或专用云提供商提供,而非在本地部署。在中国市场,提供“GPU 即服务”的厂商多以提供国产 AI 加速卡或美国 GPU 卡为主,旨在为 AI 推理和训练任务提供高效的计算资源环境。“GPU 即服务”使企业能够按需付费地访问市场上难以直接采购的高性能 GPU 和 AI 加速卡资源,特别适用于短期模型微调等场景,并能突破超大规模云服务商的地域限制。此外,相较于大型云服务商,其解决方案的成本通常更低,复杂度也相对较小。这种资源提供方式不仅适用于 AI 应用,在游戏、加密货币挖矿、高性能计算(HPC)及图形渲染等领域也获得了快速采纳。


然而,Gartner 认为这项创新仍处于相对早期阶段,建议企业优先考虑成熟度较高的云服务产品,即大型云厂商提供的公有云服务。仅当大型云厂商的服务无法满足企业特定需求时,再审慎考虑“GPU 即服务”这一创新技术。此外,企业还需评估“GPU 即服务”提供商的当前发展状况及其长期投入意愿,以确保服务的可持续性。这为企业部署 AI 工作负载提供了又一种选择场景。

国产 AI 芯片:异构挑战与部署策略


高性能计算(HPC)在模型训练中扮演着至关重要的角色。然而,我们观察到当前市场发布的大语言模型(LLMs)训练对算力需求极高,但持续投入更多算力所带来的推理结果差异化已呈现边际效应递减的趋势。这意味着单纯依靠无休止的训练投入来获得突破性进展的效用正在减弱。相应地,企业对模型训练的需求正在趋缓,而更多精力则转向 AI 应用的实际部署与落地。在此过程中,对高性能计算的需求相应降低,取而代之的是对推理算力更为迫切的需求。


针对中国芯片产业而言,当前主要面临的挑战在于高性能训练算力的支持相对不足,尤其是在与国际顶尖水平相比之下。然而,在推理 AI 芯片领域,国产厂商的能力已显著提升。以华为等厂商发布的 AI 推理芯片和算力节点为例,其与英伟达(NVIDIA)等国际领先芯片的性能差距正在逐步缩小。但随之而来的是一个现实问题:国内芯片厂商数量众多,导致企业在实际部署中面临复杂的异构芯片环境管理挑战。这不仅涉及底层硬件兼容性,更关乎上层应用管理与基础设施调度工具如何有效适配和兼容如此多样化的芯片架构。


因此,Gartner 建议企业在芯片选型上采取更为集中的策略,锁定 1-2 家核心芯片厂商进行产品部署,而非追求全面覆盖所有厂商的产品。若试图兼容所有厂商的芯片,将导致每一个工具层都需要进行繁琐的适配,无疑会给企业内部带来巨大的管理与运维挑战。相反,聚焦于少数几家芯片产品,并深入其生态系统进行兼容性测试,有助于降低复杂性。同时,这也使得企业员工能够更专注于对这些特定产品的学习与掌握,从而逐步提升自身的技术能力和适应性。

分布式混合基础设施(DHI):赋能企业按需部署


除了 AI 相关的热点话题,在整个基础设施领域,Gartner 今年将“分布式混合基础设施(DHI)”创新纳入技术成熟度曲线。这项相对较新的技术具备“原生特性”,即其产品可根据客户的具体需求,在本地、边缘计算环境或公有云上进行灵活部署与运行。


“分布式混合基础设施(DHI)”创新能够构建统一的基础设施框架,并在多样化的环境中加以应用。由于其核心在于“云”为中心的运营模式,它显著提升了公有云在传统基础设施范围之外的工作负载部署的灵活性与便捷性。企业可借此享受到类似于公有云的基础设施优势,同时又能确保对部署位置的精准管控。例如,企业可将分布式云服务部署至边缘节点或自有数据中心,抑或通过此服务实现混合云管理。总体而言,分布式混合基础设施技术为企业带来了极大的便捷性。


然而,我们也必须认识到,各云服务商提供的解决方案及商业模式存在显著差异。因此,在投资此创新技术时,企业需根据自身主要应用和部署场景来明确需求,并审慎评估云服务商的能力是否能满足具体要求,例如平台运维的控制权归属,以及解决方案是否支持离线运行等特定需求。在权衡不同厂商的产品特性和商业模式之余,企业还需结合自身的财务制度偏好进行考量。例如,部分企业可能倾向于持有资产,这就需要评估特定云服务商的产品是否支持这种资产持有模式。


通过这项技术创新,企业能够更好地发展其基础设施。尤其值得一提的是,以往多见于公有云的按需付费模式,现在在分布式混合基础设施的框架下,也能在私有环境中得以实现,这无疑是一大优势。此外,针对不愿在公有云上部署 AI 能力的企业,公有云厂商亦可通过分布式混合基础设施产品,将其 AI 平台、模型及开发环境部署至企业指定的自有数据中心。

结语


最后,Elaine Zhang 强调,在审视整个技术成熟度曲线时,不仅要关注各项技术所处的位置及其大致的成熟阶段、企业采纳能力,以及对其期望值。更重要的是,Gartner 会为每项技术创新设定一个时间区间,这并非简单地与其在曲线上的位置线性关联。技术达到主流采纳成熟度所需的时间各异,因此,在解读技术成熟度曲线时,另一个关键维度便是“优先级”。


在今年的基础设施技术成熟度曲线上,Gartner 尚未发现能在两年内带来重大颠覆性变革的技术。然而,Gartner 关注那些在两年内有望对企业产生较高影响力的技术,例如 SD-WAN(软件定义广域网)。虽然 SD-WAN 已相对成熟,并已抵达“生产力高原”阶段,成为成熟产品,它尚未引发企业翻天覆地的变革,但其对企业运营的影响力已然显著。其次,Gartner 关注那些对企业具有重大影响,但仍需 2-5 年时间才能趋于成熟的技术。当然,这并非意味着其他技术不重要,而是强调在审视技术成熟度曲线时,除了关注技术的位置,更要考量其距离达到真正成熟所需的时间,并在企业应用时设定合理的期望值。

2025-09-04 10:376056

评论

发布
暂无评论

React生命周期深度完全解读

夏天的味道123

React

日报周报是“毒瘤”还是“良药”?

优秀

周报 日报

Springboot 一行代码实现文件上传 20个平台!少写代码到极致

程序员小富

Java springboot 文件上传

React的5种高级模式

夏天的味道123

React

2022 XDR网络安全运营新理念峰会完整嘉宾阵容公布!

未来智安XDR SEC

网络安全

对象存储只能按文件名搜索,你out了吧

华为云开发者联盟

云计算 存储 华为云 企业号十月 PK 榜

长安链源码分析之交易过程分析(8)

RocketMQ Flink Catalog 设计与实践

阿里云大数据AI技术

sql 大数据 flink 分布式计算 企业号十月PK榜

React性能优化的8种方式

xiaofeng

React

Vue3知识点之数据侦测

yyds2026

Vue

百度搜索业务交付无人值守实践与探索

百度Geek说

Pytho 企业号十月 PK 榜 智能测试

请求投放个性化广告时,如何征得用户同意?

HarmonyOS SDK

广告

实现Promise的原型方法--前端面试能力提升

helloworld1024fd

JavaScript

Checkout.com支付解决方案,助力跨境电商领跑购物季

科技热闻

JUC中的AQS底层详细超详解

华为云开发者联盟

Java 开发 华为云 企业号十月 PK 榜

React核心工作原理

xiaofeng

React

Vue3必会技巧-自定义Hooks

yyds2026

Vue

开源软件供应链攻击激增430%,供应链安全不容小觑丨行业报告解读

SEAL安全

开源 DevOps 行业报告 软件供应链安全

学会这10种定时任务,我有点飘了

小小怪下士

Java 程序员

软件测试面试真题 | MYSQL中删除语句有哪些?

测试人

sql 软件测试 面试题 测试开发

深度解析9种ScheduledThreadPoolExecutor的构造方法

华为云开发者联盟

高并发 开发 华为云 源代码 企业号十月 PK 榜

React源码解读之任务调度

flyzz177

React

软件测试 | 测试开发 | 如何确保API的稳定性与正确性?你只需要这一招

测吧(北京)科技有限公司

测试

几个常见的js手写题,你能写出来几道

helloworld1024fd

JavaScript

web前端开发培训女生学习怎么样

小谷哥

java开发培训机构要怎么谨慎选择

小谷哥

高可用和负载均衡的三大区别详细讲解-行云管家

行云管家

高可用 高可用集群 ha

前端高频手写面试题

helloworld1024fd

JavaScript

React源码解读之React Fiber

flyzz177

React

阿里云移动测试-远程真机篇

移动研发平台EMAS

性能测试 app测试 移动测试 远程真机

【1024】程序员节丨致敬所有技术布道师

MobTech袤博科技

1024程序员节 MobTech袤博科技

Gartner解读:AI浪潮下的基础设施战略,企业如何平衡创新与韧性_AI&大模型_赵钰莹_InfoQ精选文章