10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

2025 的企业 AI 市场, Data &AI 占据主流视野

  • 2025-09-08
    北京
  • 本文字数:7374 字

    阅读完需:约 24 分钟

2025 的企业 AI 市场, Data &AI 占据主流视野

作者 | 王一鹏

头图 | 利雅得,来自 Data Center Dynamics


数据是信息的载体,是信息化、数字化、数智化的基础,也是是 AI 模型学习和训练的基础素材。而 AI 的核心是让机器能够像人一样思考、学习、决策和解决问题,其“底层养料”仍然依赖数据。如果我们将数据整理为参数,喂给 AI 模型,当参数规模超过 600 亿时,就会出现“智能涌现”,这就是今天每个人都在关注的生成式 AI。


但仅有技术实现,是远远不够的。所以,作为支撑 AI 规模化落地而构建的一体化基础软件平台, Data & AI 基础设施出现了,其核心目标是打通数据存储、治理、计算与 AI 模型开发的全链路,实现“Data for AI”和“AI for Data”的双向赋能。


这样看来,今天许多企业认为 AI 赋能业务,就是将 Dify 做私有化部署,以及采购一体机,这显然有问题。


虽然模型厂商、 AI 开源社区已经解决了算法问题,主流芯片、算力云、公有云厂商联合解决了算力问题,但企业仍需关注:如何做好私域数据的采集、治理和应用,在 GenAI 的通用能力之上,构建针对企业业务的专有能力。


阿里云智能集团 CIO & aliyun.com 负责人蒋林泉在 AICon 2025 深圳的分享中也提到,大模型落地企业包含四个关键步骤,其中之一就是 Execute(推进数据建设与工程落地)。


科杰科技创始人 & 总经理于洋表示:“AI 要在企业落地服务经营分析辅助决策,最核心体现的是理解企业自有数据,依赖企业技术与业务深度融合的程度,依赖 Data Ready 与持续的治理体系建设。”


英伟达创始人兼 CEO 黄仁勋表示,每个公司都拥有一座“数据”金矿,企业将从单纯的数据积累和使用,走向更高阶的智能生产。企业将在自身的数据基础上,通过训练定制化模型,构建行业特定的智能,每家企业都将建立自己的 AI 工厂。


这也解释了为何在 2025 年,Data & AI 赛道的热度丝毫不逊色于 AI Agent 开发平台——后者已然成为全球资本的关注焦点。


在国内,国务院《关于深入实施 “人工智能 +” 行动的意见》指出,人工智能基础设施需以 “数据 - 算力 - 算法” 一体化为支撑;同时,国家发展改革委、国家数据局、工业和信息化部等部门密集出台《国家数据基础设施建设指引》《可信数据空间发展行动计划》等政策,明确制定了数据基础设施参考架构,旨在构建以数据为核心的数字经济体系。


今年 7 月,美国白宫正式发布《美国 AI 行动计划》(AMERICA’S AI ACTION PLAN),聚焦创新、基础设施领域,计划旨在通过人工智能技术推动三大变革:工业革命、信息革命与文艺复兴,建设美国人工智能基础设施,全面提升国家经济竞争力和民众生活水平。


据投中网报道,Databricks 宣布,已经签署了 K 轮融资的条款清单,预计将在现有投资者的支持下很快完成,此轮融资对应估值将超过 1000 亿美元。


Databricks 是一家不缺钱的公司,其在 2024 年年底刚获得一笔总量 100 亿美元的“史上最大风险投资”。截至 2025 年中,Databricks 年化收入(ARR)约 $37 亿,同比增速 50%。在财务情况良好的前提下,仅隔半年再融 K 轮,用 Databricks CEO 自己的话说,完全是资本太热情。



这就是当下全球 Data & AI 市场的真实写照。来自德勤的调查显示,28% 的 AI 领先企业正利用 Data & AI 方案整合数据和 AI,以实现高效、高价值的 AI 应用。


但热闹之下,赛道泡沫也随之滋生。将传统大数据平台与开源大模型 API 拼装在一起,支持向量存储,便宣称完成“ Data & AI 升级”,这种模式容易让市场认知出现偏差,也可能让一些专注于技术创新的实干企业在泡沫中受到的关注相对减少。

泡沫之下的真问题:Data & AI 的核心矛盾是“融合”


数据是关键生产要素,AI 是新式生产工具,某种程度上也正在成为“劳动者”,二者结合共同成为新质生产力的一部分,也是数字经济当下最重要的发展引擎。


所以,Data& AI,从诞生之初就是个系统工程。


从 2006 年 Apache Hadoop 诞生开始,解决海量数据存储与批处理的核心难题;2014 年,Apache Spark 的出现实现了流批一体计算,让数据处理延迟从小时级降至分钟级;2020 年之后,湖仓一体架构(Lakehouse)的普及,又打破了数据湖的无序与数据仓库的封闭,实现了实时读写 + 结构化分析的兼顾。这期间,大数据市场规模爆发,诞生了 Cloudera、Hortonworks 等专业厂商,也培育出 Apache Flink、Iceberg 等现象级开源项目。


大数据领域基础设施、开源技术生态已能阶段性的满足数字经济发展需求。


AI 领域的发展则是爆发式的。此前五十年,AI 的研究进展是平缓的。从 2015 年 TensorFlow 发布开始,AI 技术于十年内迎来快速发展,如今已制造行业最大技术红利。


但企业很快发现,AI 模型的 “落地瓶颈” 从不在于算法本身,AI 需要的 “高质量、高可用、低延迟” 数据供给,传统大数据架构无法完全满足;而大数据平台积累的海量数据,也需要 AI 工具释放其价值。


长期专注在湖仓一体技术方向建设的专业型厂商技术优势明显。


Data & AI 的全方位融合成为必然,是从架构、流程、场景层面重构数据基础设施,让数据能无缝流向 AI 模型,让 AI 开发能嵌入数据全生命周期。


类似的理念在国内有多种说法,用友将其称之为“‘AI×数据×流程’原生一体”,腾讯云称其为“Data+AI 双轮驱动的一体化”,科杰科技称其产品为 AI-Native 的 Data&AI 一体化基础设施… 但大家的理念皆逃不过“融合”两个字,具体可分为三个维度来理解。


首先是架构融合。


传统大数据架构以 “数据存储与计算” 为核心,追求高吞吐量、高容错性,但在 AI 需要的低延迟数据访问、多模态数据处理、模型训练资源调度上存在明显短板。例如,AI 模型训练常需反复读取样本数据,传统 HDFS 的存储架构会导致 I/O 瓶颈;而大数据平台的资源调度系统(YARN),也无法适配 AI 训练所需的 GPU/TPU 资源动态分配。


架构融合的核心是构建 “AI-Native” 的数据基础设施。以湖仓一体架构为例,需在原有 “数据湖 + 数据仓库” 的基础上,集成向量数据库(支持多模态数据检索)、模型服务引擎(Model Serving)、动态资源调度模块。既要保证 PB 级数据的高效存储,又要满足 AI 模型毫秒级数据读取、弹性算力调度的需求。


第二是流程融合。


企业常见的困境是数据团队在数据底座完成采集、清洗、治理后,需将数据导出为 CSV 或 Parquet 格式,再由 AI 团队导入模型训练平台;模型训练完成后,部署到生产环境时又需重新对接业务系统的数据接口,整个流程存在大量 “人工搬运” 环节,不仅效率低下,还易导致数据不一致。


流程融合的本质是实现数据工程与 AI 工程的工具化统一。具体而言,需覆盖三个环节:


  • 数据准备阶段:数据治理工具需内置特征工程能力,支持从原始数据中自动提取模型所需特征,无需 AI 团队重复加工;

  • 模型开发阶段:AI 开发平台需能直接访问数据底座的资产目录,支持实时调用数据湖中的流数据进行模型迭代;

  • 模型部署阶段:平台需提供 MLOps 能力,实现模型部署、监控、回滚与数据质量监控的联动 —— 当数据质量下降时,能自动触发模型重新训练。


可以说,实现架构融合、流程融合,是实现 Data & AI 平台级能力的充分必要条件。


三是场景融合。


随着 AI 技术的演进,Data & AI 的应用场景已从单一结构化数据分析走向 “多模态数据 + 智能 Agent” 的复合场景。例如,车企的智能座舱需处理语音、图像、传感器等多模态数据,同时调用用户行为标签、车辆故障数据等资产;金融机构的智能投顾 Agent,需实时对接市场行情数据、客户持仓数据,并调用风险评估模型生成建议 。这些场景要求 Data & AI 平台具备“多模态数据处理 + 数据资产化 + Agent 开发” 的一体化能力。


但场景融合的难点在于兼容性与扩展性。一方面,平台需支持文本、图像、音频、物联网时序数据等多类型数据的统一存储与检索,例如通过向量数据库实现非结构化数据的语义检索;另一方面,需提供低代码的 Agent 开发工具,让业务人员能基于现有数据资产快速构建智能应用,而非依赖算法团队从零开发。


以上三重融合是企业建立 AI 工厂的基础,从实际的产业落地案例中也充分验证了这点,日本永旺集团从 2020 年开始建设其集团一体化数据基础设施。


永旺集团作为日本的跨国型连锁商超,业态和模式非常复杂,涉及大零售、大健康、大金融板块,团旗下包括 500 多家成员公司,且涉及 AWS、Azure 跨云环境的应用。因此要实现三重融合的难度极高——这意味着平台需具备跨云混合部署的能力,以及知晓如何面向大型集团企业,构建可持续运营落地的数据能力体系,需要将数据底座平台工具结合永旺集团的业务、组织体系进行融合落地。


起因是永旺目前使用的数仓 (Azure Synapse) 产品,无论在运算力层面,还是在智能业务场景的支撑上,都无法满足当前运营要求。具体表现在无法对各业务板块数据进行统一汇聚;业务指标不统一,没有能够对数据进行打通和标准化,未形成全域数据资产和满足 AI 应用的高质量数据集及管理能力;业务变化整个数据任务的响应过程漫长,数据分散、质量参差不齐,缺少 AI 工具,在业务实际支撑智能仓储物流调配、以及智能化决策都存在瓶颈。


永旺集团通过对国内外 Data&AI 一体化平台技术选型,最终选择科杰科技平台作为其智能化基础设施底座,以及进行配套的数据标准体系和数据指标体系设计,推进永旺集团包含茉莉幻想、海外购物、商超、GMS 等多个业务域数据资产体系的建设,形成集团级的 Data&AI 一体化平台,解决了内部领导查看报表的基本需求,同时为集团层面的多个数据智能化场景落地奠定了良好的数据基础,例如门店选址、客户画像、精准营销以及智慧供应链等,最终满足了永旺集团的平台建设诉求。


科杰科技创始人 & 总经理于洋认为:“在大型组织落地这样一个底座平台,不光是产品能力和技术先进性的问题。更重要的是一套保障数据持续集成、治理,以及结合业务场景完成价值创新的工作方法论。工作方法论让数据底座平台有了灵魂,让底座平台可落地,让底座平台成为企业数据智能全面落地的抓手,让企业可以体系化的落地 AI 能力,开始具备原生 AI 能力。”


当然,参与永旺集团项目竞标的企业不仅有科杰科技,也包括 Databricks、Snowflake……


这就牵扯到一个 Data & AI 产业绕不开的“灵魂拷问”:在全球范围内,面向业态和模式都很复杂的超大型企业,谁才是“头部玩家”,如何看待这之间的技术选型、企业合作以及潜在的合作成本?

选型与成本之困:如何找到 Data & AI 领域的靠谱伙伴?


参照此种目标涉及,我们可以笼统的将 Data & AI 领域的合作企业分为三类来看:


  • 传统大数据公司,比如星环科技、明略科技、东方金信等;

  • 云计算公司,比如 AWS、阿里云等;

  • Data & AI 基础设施平台提供商,如科杰科技、Databricks、Snowflake 等;


传统大数据公司在行业内深耕多年,经验丰富,有一定的大数据平台项目和客户积累。特别是疫情期的“健康码”工程,为传统大数据公司积攒了大量项目实施经验。可以说,传统大数据公司既是大数据类开源项目的核心贡献者,也是上一代数字化转型浪潮的核心推动者和受益者。


但需要注意的是,GenAI 兴起后,这些企业也正处于转型期,AI 能力多为外部集成,即通过调用第三方大模型 API 实现智能问数,目前在 Data & AI 数据基础设施一体化建设的实施经验和案例上相对较少。


相对来说,这些企业更偏重大数据能力,在产业生态上,适合交付以 “数据分析” 为核心的需求,例如传统零售企业的销售数据分析、政务部门的统计报表生成等。


云计算公司的生态则更完善,产品矩阵庞大,项目经验丰富,资源链接广,技术能力强,但定制化与成本可控性弱。阿里云、AWS 等云厂商的 Data & AI 方案,优势在于算力与生态的一体化。这类厂商能提供从 IaaS(算力、存储)到 PaaS(数据底座、AI 开发平台)的全栈服务,企业可直接基于云原生架构搭建系统,无需担心底层硬件部署,且因为可以软硬协同调优,在性能上更有保障。


但问题在于,云计算企业看待定制化需求、私有化需求,几乎总是“暧昧”的。一方面,云是以标准化产品为基础的复利生意,不可能全面倒向定制开发;另一方面,无论国内外,大型企业的需求几乎总是偏“定制化”的。所以云厂商的产品多为标准化模块,难以适配大型企业(如国企、制造业)复杂的业务流程与数据安全需求。


此外,云模式下的长期运营成本可能很高,云厂商按算力、存储量收费,更经济的按需计费模式覆盖并不全面。当企业数据规模达到 PB 级后,年度支出可能突破千万,且存在 “vendor lock-in” 风险 —— 迁移至其他平台的成本极高。这也是为什么 GenAI 兴起后,新兴算力云企业获得很大的市场生存空间——它们更便宜,也更灵活。


因此,云计算企业与中小型企业或互联网企业更为亲和,这类企业业务流程相对标准化,对算力的弹性需求高,且能接受长期依赖云厂商的生态,或者本身就有与大型云厂商在渠道、出海等方面的深度合作诉求。


而 Data & AI 基础设施平台提供商的融合能力强,兼顾定制化与合规性。以 Databricks、Snowflake、科杰科技为代表的专业厂商,核心竞争力在于 Data 与 AI 的原生融合。这类厂商从一开始便以 “融合” 为核心设计理念,而非 “大数据 + AI 插件” 的拼凑,因此能覆盖架构、流程、场景的全链路需求。


Snowflake 的“雪花模式”多维数据模型


首先,这类公司的技术能力足够,例如 Databricks 的 Delta Lake 能实现数据 ACID 事务与版本控制,Snowflake 存储与计算分离架构,支持按需扩展,降低企业成本 30%-50%,科杰科技的 KeenData Lakehouse 则通过 97% 的自研代码率实现了全栈信创适配,满足国企、政府的安全合规要求。


第二,这类公司属于“资本宠儿”,营收规模增长极快,行业经验丰富,能基于不同领域的业务逻辑提供定制化方案。


第三,Data & AI 基础设施平台提供商与云计算厂商不同,模块化的产品矩阵可按需选择,避免不必要的功能冗余,成本可控。


因此,Data & AI 基础设施平台提供商适合对 “Data & AI 融合深度” 要求高的大型企业,尤其是国企、制造业、金融机构等,这类企业不仅需要数据处理与 AI 开发能力,还需满足私有化部署、信创合规、行业定制化等需求。


不过,这类公司彼此之间亦有区别——在北美, SaaS 是门很好的生意,使得 Databricks、Snowflake 多少更偏重 SaaS 工具生态,而非平台整合能力和服务能力;而许多中国企业,是过去十余年数字化转型浪潮里历练出来的,一开始就面向巨型企业设计产品,平台能力、系统能力更强。


OpenAI 创始人山姆·奥尔特曼日前接受采访时表示,美国低估了中国下一代人工智能的威胁,单靠芯片管制不是一个有效的解决方案。奥尔特曼还表示,来自中国模型的竞争,尤其像 DeepSeek 和 Kimi K2 这样的模型,是 OpenAI 最近决定发布开源模型的重要原因。


用友董事长兼 CEO 王文京在新华网的采访中提到,中国新一代企业软件在全球市场已具有竞争力,数智化时代中国企业软件与智能服务平台将引领全球,就像中国移动互联网平台、新能源汽车一样。


科杰科技创始人 & 总经理于洋也表示:“管理软件时代,欧美公司在我国大客户市场占主导,中国公司利润很低。经过这几年的数字化变革发展,我们有新的认识新的成就。比如 Data & AI 基建软件上,依托国内大组织、企业或者政府侧建设积累,科杰数据智能平台在企业级和整体性是优于美国 Databricks、Snowflake 公司 Data SaaS 工具组合方案的。


详细的说,我们构建的数智基础设施是由一整套拆分 / 组合的软件构成,其在设计之处就以集中式管理分散式赋能的理念为目的,其可以提供私有化部署,并且提供完成的构建方法轮以及需要组建部门的人员管理建议,从而保证数智基础设施的有效落地和长期运营。而美国公司提供的是 SaaS 级的各类零散工具,企业级和整体性思考不够,也没有落地建议和指导,需要客户自行将各类 Data SaaS/AI SaaS 组合。


数智基础软件作为中国新质生产力的代表会在全球大放异彩,这也是科杰始终致力于的方向与努力。


而关于合作成本,企业在选型时往往容易陷入 “只看初期采购成本” 的误区,事实上,Data & AI 平台的成本需覆盖 “部署 - 运维 - 迭代” 全周期,不同类型厂商的成本结构差异显著。


大数据厂商与云厂商的初期部署成本低,但远期部署成本高,尤其对于需要私有化部署的大型企业来说,隐性成本可能很高,因为云厂商的私有化部署需定制化改造底层架构。PingCode 曾表示,按照国内行业通用做法,私有部署订阅的价格通常是公有云的 2-3 倍。而大数据厂商需新增模块,且可能与原有 AI 工具冲突,耗费的精力和成本也可能增加。


Data & AI 基础设施平台提供商的部署成本是初期略高,但长期来看更可控。从迭代成本来看,模块化设计更适配业务增长、海外业务扩张。


这也与当下中企出海的整体态势息息相关。

成本外的思考:Data & AI,需要适配全球市场


与从前不同的是,在 2025 年,对产品有信心的企业,最好将出海纳入企业核心战略规划。所有的 AI Infra 构建,都要将这部分成本考虑在内。


当 Databricks 筹备上市、Snowflake 市值突破七百亿美元时,全球 Data & AI 赛道的竞争已从技术探索阶段,进入生态卡位阶段。而中国的挑战者们,如阿里云、科杰科技等,早已完成 “国产化替代” 的初期任务,开始在全球市场与海外头部企业正面交锋。


例如自 2016 年开始,沙特全力推进 “2030 愿景”,在数字经济领域持续加大投入,致力于实现经济多元化转型。沙特阿拉伯 2024 年年度报告显示,截至 2024 年底,85% 的举措已完成或正按计划推进。


沙特“2030 愿景”概念图


中国企业高密度的出现在这项将持续十余年的大型数字化工程中。


2022 年 5 月 22 日,中东最大移动运营商沙特电信发布公告称,与阿里云、易达资本,以及沙特公共投资基金 PIF 旗下的沙特人工智能公司和沙特信息技术公司,在沙特首都利雅得成立沙特云计算公司(SCCC)。


国内的 AI Infra 垂直专业类厂商以科杰科技为代表,也凭借在 Data Fabric、Data Mesh、Active Metadata Management、DataOps 等关键技术领域的创新优势,顺利与沙特多家企业及机构达成合作协议,为其提供定制化 Data&AI 基础设施解决方案,助力当地企业提升数据管理与分析能力。


全球化,正在成为所有企业新的战略命题。


因此,为了将来在海外的业务发展,选择与 Data & AI 基础设施平台提供商合作构建 AI Infra,以更好地控制成本,这不失为一个有战略眼光的技术选型思路。


当完整的产业生态从国内逐渐蔓延向国外,一并带出的是更好地性价比、更契合的服务、更适配的产品,使得其他中企出海也会更有底气。关于 Data & AI 平台建设的考量,有必要将未来在海外的业务拓展纳入计划,一并考虑。


2025-09-08 14:395

评论

发布
暂无评论

深圳大数据培训机构怎么选

小谷哥

OpenHarmony系统使用gdb调试init

OpenHarmony开发者

openha

尚硅谷&腾讯云EMR实时数仓教程发布

小谷哥

React的useLayoutEffect和useEffect执行时机有什么不同

beifeng1996

React

校招前端一面必会vue面试题指南

bb_xiaxia1998

Vue

2023我的前端面试小结

loveX001

JavaScript

基于ERNIELayout&pdfplumber-UIE的多方案学术论文信息抽取

汀丶人工智能

nlp 信息抽取 2022年终总结 2023新展望

ARM 算子性能优化上手指南

MegEngineBot

深度学习 开源 性能优化 MegEngine

ZooKeeper 避坑实践:SnapCount 设置不合理导致磁盘爆满,服务不可用

阿里巴巴云原生

zookeeper 阿里云 云原生

一种多维数据库的数据事务专利解读

元年技术洞察

数据中台 数字化转型 专利解析 多维数据库

注意这八个容易损坏LED显示屏的情况

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家

功能上新|一键归因分析,快速洞察指标波动原因

Kyligence

指标中台 归因分析

前端一面常考react面试题

beifeng1996

React

Koordinator v1.1发布:负载感知与干扰检测采集

阿里巴巴云原生

阿里云 云原生 Koordinator

如何在Java程序中合并和拆分Excel文档

Geek_249eec

Java Excel 工作表

假如问:你是怎样优化Vue项目的,该怎么回答

bb_xiaxia1998

Vue

经常会采坑的javascript原型应试题

loveX001

JavaScript

深入理解JS作用域链与执行上下文

loveX001

JavaScript

web前端技术应该怎么规划学习?

小谷哥

2022年是最烂的一年吗?我的2022年终总结

Zhendong

总结 年终总结 2022年终总结

海量数据同步首选 SeaTunnel Zeta 引擎正式发布!

Apache SeaTunnel

大数据 开源 apache 社区 Apache SeaTunnel 数据集成平台

前端培训机构如何学习开发技术

小谷哥

如何通过C#/VB.NET将格式应用于 Word 中的字符

在下毛毛雨

C# .net word文档 字符格式

校招前端二面常考react面试题(边面边更)

beifeng1996

React

Rancher RFO 正式 GA

openEuler

Linux 开源 Kubernetes 操作系统 rancher

React循环DOM时为什么需要添加key

beifeng1996

React

云时代,最好用的MySQL客户端工具推荐

NineData

MySQL 数据库 GUI

AIGC最近很火,给大家推荐一个已经有1000位开发者使用的中文aigc开源模型,包括ai画图、ai聊天

AIGC布道者

人工智能 机器学习 AI AIGC AI绘画

2023我的前端面试小结

loveX001

JavaScript

JavaScript刷LeetCode拿offer-栈相关题目

js2030code

JavaScript LeetCode

前端高频vue面试题总结

bb_xiaxia1998

Vue

2025 的企业 AI 市场, Data &AI 占据主流视野_AI&大模型_王一鹏_InfoQ精选文章