10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

GenAI 退烧后,这家企业正在用 “数据平台” 重构 AI2B 的底层逻辑

  • 2025-09-16
    北京
  • 本文字数:7111 字

    阅读完需:约 23 分钟

大小:3.45M时长:20:07
GenAI 退烧后,这家企业正在用 “数据平台” 重构AI2B的底层逻辑

GenAI 浪潮下,企业级 AI 落地的 “最后一公里” 到底卡在哪?


9 月 12 日,矩阵起源在上海举办了 “以数生智,以智驭数” 新品发布会。发布会开场,没有过多炫技式的产品宣讲,反而用相当长的时间拆解这一行业共识却依然无解的难题。


现场矩阵起源 CEO 王龙抛出的两组数据形成了尖锐反差:Gartner 预测 2026 年超过 80% 的企业会在生产环境部署 GenAI,可当前超过 80% 的企业 AI 项目,在 POC(概念验证)后就陷入停滞。前者描绘的 “智能新常态” 蓝图越清晰,后者暴露的落地困境就越刺眼。


这种预期和现实的差距,或许是当下企业级 AI 领域最大的挑战:人类历史上前三次产业革命,都十倍、数十倍地提高了产业的生产效率和投资回报。这次大模型和 GenAI 为代表的人工智能,如何才能成为第四次产业革命的核心引擎,这是一个值得全行业深思的问题。


“当行业还在追逐大模型参数、比拼基础模型生成效果时,矩阵起源通过大量的客户落地和最佳实践,清晰地感受到,企业级 AI 落地的真正瓶颈,早已从 ‘大模型够不够强’ 转向了 ‘私域数据能不能用好’。”王龙在接受 InfoQ 专访时表示。


矩阵起源这场发布会的关键价值,或许在于把行业的目光从 “天上飞的模型” 拉回 “地上跑的数据”,也让一个更值得讨论的话题浮出水面:当 GenAI 从 C 端热闹走向 B 端落地,企业级 AI 的重点,是不是该变了?


从「模型狂欢」到「数据觉醒」


其实早在今年 7 月,MIT 的一篇《生成式 AI 的鸿沟:2025 年商业 AI 的现状》报告就曾引发硅谷恐慌,导致美股科技股巨震。报告指出:在企业里,仅 5%GenAI 项目能实现最初目标,95% 都最终失败了。


“造成上述问题的根源,不是模型不够强,而是企业的私域数据没用好。”王龙直指核心。


“数据基建滞后”比“模型能力不足”更致命


王龙用自动驾驶的技术路线类比:“我们知道当前主流的自动驾驶路线可以分两派,一类是纯视觉,一类是激光雷达。激光雷达方案靠多传感器拼凑数据,特斯拉 FSD 则是用统一的视觉数据训练,后者因数据整合更简单,效率更高,迭代速度更快,就可以领先其他竞争对手几年,实现从 L2 到 L4 的跨越。”


这种数据整合能力和模型迭代速度的差距,在企业场景中体现为“冰山困境”——水面上 30% 的结构化数据(ERP、CRM 数据)仅能支撑传统意义的分析报表,但水下 70% 的非结构化数据(合同、图纸、邮件等各种材料)才是大模型为基石的智能体最重要的“燃料”,但这些数据往往分散在几十个系统中,形成星罗棋布的“数据孤岛”。


“当 AI 要介入企业的规划、设计、生产、物流、风控、决策等高价值核心场景,数据必须成为 AI 的‘锚点’—— 如果数据割裂、质量不可控,再强的模型也会变成‘脱缰的野马’。” 王龙的判断,正被越来越多企业的实践印证:不少尝试将 AI 用于核心业务的企业,最终因数据无法形成有效协同,只能将智能体局限在客服问答、文档摘要等边缘场景,难以使用在企业中最具价值的核心业务,导致投资回报低。换句话说,算不过来账,就很难继续投入。


当然,数据基建的问题非是企业的“一家之痛”,而是全产业链的“共性之困”。近期政府出台的“人工智能 +”行动意见,便是对数据基建战略价值的有力背书,同时也为数据基建的发展提供了明确的方向指引。文件提出 2027 年智能终端、智能体普及率超 70%,并强调“模型 - 数据 - 算力 - 应用 - 生态”等协同发展。“这不是政策口号,而是企业 AI 落地的必经之路。政策指向的‘协同’,本质是让企业从‘数据搬运工’变成‘数据建筑师’。”王龙总结道。


从“数据库 iPhone”到“数据智能 iOS”


实际上,从成立之初,矩阵起源便将自身定位为这样的 “数据建筑师”,其产品与技术的演进,也始终围绕 “新一代的数据基建” 这一核心命题展开。


“围绕‘新场景、新应用、新技术、新数据’打造全新的数据平台,这是矩阵起源安身立命之本,也是整个团队一直以来的共同愿景。”王龙表示。


“四新”在哪里? 在创业初期很多决策只能基于模糊的假设。矩阵起源从第一性原理出发,认为无论未来爆发的“四新”在哪里,“打破数据烟囱,简化基础架构,高效数据管理”都会是最有挑战和最具价值的投入方向,于是提出“要做数据库领域的 iPhone”,本质上是先解决最必需的数字化痛点。


2023 年推出的 MatrixOne(简称 MO)作为云原生超融合数据库,已经能用一套统一的计算和存储架构,来存储结构化、半结构化、非结构化的多模态数据,还以兼容 MySQL/Python 语法的形式支持 TP、AP、向量 /AI、流、时序等多种负载,使得企业在 MatrixOne 上搭建各种复杂应用就像用 MySQL 一样简单。“就像 iPhone 用统一系统来大幅提升用户体验,避免了出门旅游携带手机、相机、游戏机、MP3 的繁琐”王龙比喻道,MatrixOne 是想帮企业先打破 “数据散在多个割裂系统里,不好管、管不好” 的僵局。今天看来,这恰好是 GenAI 落地企业的关键第一步。


到了现在,围绕大模型和 GenAI 为核心的“四新”似乎愈发清晰。 在基础大模型能力提升逐步放缓的今天,如何高效地找到和使用高质量的数据,来全面管控大模型的幻觉,支持大模型在核心流程发挥作用,已经成为人工智能新场景落地的最后一块拼图。


2024 年中发布的 MatrixOne  Intelligence(简称 MOI),便是矩阵起源给出的答案。作为面向企业的 AI 原生多模态数据智能平台,MOI 的产品定位升级为 “数据智能的 iOS”——不仅提供简单、高效、可靠、可扩展的存储计算能力,更旨在构建 AI 友好和 AI 原生的数据基础设施。


从核心能力的进化来看:一方面,MOI 为模型的训练、推理、思考提供高质量、可信、可控的数据集,提升模型的准确率和召回率,并以简单、安全、合规和符合企业流程的方式提供各种服务接口,这能大大提升 AI 落地速度和效果;另一方面,系统内部的所有模块设计,都引入大模型的支持,包括结构化(SQL)、半结构化、非结构化数据的接入、解析、治理、增强、管理和加工能力等,极大提升了平台的智能化能力与数据处理效率。“我们希望将 MOI 打造成即将爆发的新一代 AI 应用的首选底座。”王龙表示。


从 MO 演进到 MOI,在王龙看来,是一场数据和 AI 的双向奔赴:


王龙表示,一方面,过去几十年,数据库和大数据的管理一直是企业最头疼的问题,投入大、效果差、反应慢。如今,MOI 引入了专门负责数据运营的数据智能体,提升了数据工程师、数据科学家和数据管理员的工作效率,极大缓解了这个问题。


另一方面,构建训练和推理所需的高质量、高可靠数据是极花时间的,昂贵的算法团队和 GPU 集群不得不停下来等待数据的准备,严重浪费了宝贵的人才和算力资源,并影响了智能体应用推向市场的时间。如今,MOI 作为一站式的统一数据智能平台,能让算法专家们近乎实时地找到他们所需要的数据。然后对多模态数据进行统一地治理,将各种原始数据变成 “AI-Ready 的数据资产”,并通过评测反馈闭环机制,持续优化、全面管控幻觉类问题,从而实现“数据治理和智能体应用” 的完整闭环。企业不再需要像拼积木一样去串联多个系统,从而能像特斯拉的 FSD 一样,实现数倍于竞争对手的快速迭代,更早地完成 GenAI 的落地和智能化转型。


“MOI 的数据平台既是高质量数据集的提供者,也使用智能体来优化和增强数据;智能体既使用高质量数据集来提高落地效果,同时也是数据平台的建设者。二者相辅相成,无缝集成,螺旋上升。”这便是本次发布会上,王龙提出的“数据智能飞轮”的含义,也是 “以数生智(Control Your Data)” 和 “以智驭数(Trust Your AI)”的核心思想。


如何破解 AI“消化不良”、“幻觉丛生” 的死结?


从技术层面,怎样才能将企业的“库存数据”变成“AI 的燃料”?结构化数据(如 ERP、CRM 里的业务表)和非结构化数据(文档、图片、音频等 “知识类数据”)散在企业的不同系统里,AI 根本 “凑不齐一盘菜”,实际执行任务时的效果不言而喻。


而 MOI 的三层架构,便是矩阵起源用来打通 “数据零散→AI 能用→业务能落地” 的全流程的一把钥匙:



底层:先把所有数据 “一网打尽”


MOI 的底层靠 MatrixOne 和 MatrixGenesis 两个核心模块托底:


  • MatrixOne:像个 “超级收纳箱”,不管是数据库里的结构化表、对象存储里的文件,还是第三方 SaaS 里的数据,各种格式都能统一存(湖仓一体 + 多模存储是核心能力);同时还能 “边存边算”,向量查询、全文检索这些 AI 必需的计算能力,它直接就能提供。

  • MatrixGenesis:是 “AI 工具箱”,LLM 大模型、Embedding 模型、视觉 / 语音模型全在这儿,给后面 “改造数据、做智能服务” 提供 AI 技术支持(比如解析文档、给非结构化数据打标签)。


矩阵起源产品 VP 邓楠在接受 InfoQ 专访时表示,整个 MOI 的框架其实是由 MatrixOne 奠基的,它带来了两大核心能力:首先是多模态、超融合的存储基座,所有的结构化、非结构化数据接入进来后,都通过 MatrixOne 的“湖仓一体 + 多模存储”进行统一的计算和管理;其次是云原生的底座跟计算框架,所有的节点、新的能力,都统一在一套云原生架构里面,针对底层数据的各种计算,也统一由 MatrixOne 的计算引擎执行。“MO 和 MOI 的关系,简单理解就是前者是数据智能底座,后者是数据智能平台”,邓楠总结道。


MatrixGenesis 则主要服务于 ETL 数据处理过程中,针对非结构化数据进行解析抽取、增强生成等一系列的任务。“可以理解为它服务于上层所有的任务,所以我们把它也放在了底层。”邓楠补充表示。


中间层:把数据 “捏成 AI 爱吃的形状”


中间的 MatrixPipeline,干的是 “数据改造” 的活儿,相当于 AI 时代的 “新型 ETL”:从数据接入开始,清洗、预处理、把长文档切成向量片段、给数据做增强等等,一套流程跑完,把原始的结构化、非结构化数据,全变成 AI 能直接 “下嘴” 的 “AI-ready 资产”。同时还能调度处理任务、管数据权限,既保证数据处理得对,又能守住合规底线。


邓楠在访谈中指出,传统 ETL 的数据链路基本是 “线性” 的:原始数据经清洗、分层聚合后生成报表,每个环节靠人工写代码串联。而 AI 时代需要同时处理结构化与非结构化数据,流程必须变成“多层次与飞轮式的”,一方面要从文档中提取信息与数据库数据交叉校验,甚至构建业务知识图谱,另一方面还需要打通反馈数据的收集并优化整体流程。


从某种意义上来说,MatrixPipeline 解决了企业级 AI 落地最关键的语料准备和流程权限的问题。


上层:直接给业务 “递锤子”


最上层的 MatrixCopilot 则是 “业务服务的最前线”,负责把处理好的数据直接变成能落地的智能能力:


  • 想快速查数?用 Chat2BI,自然语言指令一出,结果直接出来;

  • 想跨数据搜索?多模态搜索能同时查数据库里的销售数据和合同文档里的条款;

  • 想自动化处理数据?智能工作流能自动生成流程(比如丢一万份简历进去,让 AI 自动提取信息)……


更为关键的是,业务端在使用过程中,如果反馈了问题(比如数据提取错了、流程卡壳了等等),中间层、底层会跟着进行优化,这带来的好处就是平台的数据处理和服务能力会“越用越强”。


比如针对企业最担心的“数据质量拖累模型”问题,MOI 设计了三层反馈机制,实现数据与模型的双向优化:


  • 上下文反馈:用户对 MatrixCopilot 回答的“不准确”标记,会直接修正当前任务的 prompt 逻辑。

  • 流程反馈:当某环节(如合同字段提取)错误率超过阈值,系统自动触发 Pipeline 节点优化。

  • 模型反馈:当反馈问题被判定为模型能力不足时,用户可以用积累的反馈数据启动精调流程。


“这不是简单的 A/B 测试,而是让系统像人一样‘从错误中学习’。”邓楠比喻,“就像新手司机不断修正方向盘,智能体在交互中自然进化。”


“我们正在构建的不是一个数据库或者数据引擎,而是一个操作系统,就像人类的大脑一样,能进化、能协作、能感知、能记忆,还能自我修复。MOI 的使命就是统一碎片数据、加速智能闭环、降低进化成本,进而支撑无限可能。”矩阵起源内核研发负责人徐鹏在发布会上表示。


实际上,智能反馈机制的闭环设计,对持续推动数据召回准确率的提升以及模型幻觉率的降低有极大的帮助。 正如 FSD 的领先优势本质上源于 “规模效应 + 架构简化” 带来的数据流动效率 —— 通过更快的数据反馈链路收集高质量数据,形成 “数据迭代 - 效果优化” 的正向循环,AI 准确率才能从 20% 跃升至 99% 以上。


王龙表示:“在 AI 时代之前,ERP、CRM 等企业核心系统就已面临准确率挑战 —— 银行核心交易需要‘八个九’的可用性,万人并发场景下需分钟级响应优化。这些经过数十年打磨的系统,用精密架构确保了业务连续性。但当下企业 AI 落地却面临尴尬现状:通用大模型处理特定任务时准确率常停留在 20%-40%,与传统软件‘四个九’的可靠性标准差距悬殊。”


这种差距本质上是 “进化周期的代际差”。MOI 的反馈机制正是通过 “数据召回 - 模型优化 - 效果验证” 的闭环,让 AI 系统在保有持续敏捷性的同时,以 “企业级系统的可靠性标准”积累稳定性—— 就像 ERP 系统通过千万次交易打磨流程,AI 需要在反馈闭环中让准确率从 “可用” 走向 “可信”,最终实现 “从管理决策辅助工具” 到 “核心业务引擎” 的质变。


谈及 MOI 之于企业的价值全貌,邓楠表示,“总体上来讲,MOI 聚焦于 Data Platform 层的能力构建,核心是实现全类型数据的统一管理、治理及服务输出。这套体系不仅支持各种典型的 AI 场景,还能为企业各类业务需求提供底层数据支撑 —— 无论是构建自动化业务流程、开发知识性应用、进行大模型定制化训练,还是实现业务数据可视化展示,均可基于平台层输出的标准化数据能力快速落地。简而言之,我们负责夯实数据基建的 ‘地基’,而具体的业务场景创新与应用开发,则交由企业根据自身需求灵活实现。”


从「技术参数」到「业务价值」


技术架构的创新与最终价值如何,还需要到具体的场景中去验证。发布会中,矩阵起源研发 VP 赵晨阳介绍的两个案例,直观展现了 MOI 如何解决企业的实际痛点。


打破医疗数据孤岛


某三甲医院在慢性病(如 IBS)管理中面临典型困境:患者需长期跟踪病史,但 HIS 系统中大量病历为手写照片等非结构化数据,医生难以关联患者过往用药与健康状况。传统方案因数据碎片化,无法支撑 “病史 - 当前症状 - 诊疗建议” 的闭环决策。


MOI 通过超融合底座统一接入病历图像,利用 NLP 技术提取关键信息,并生成对抗样本强化训练数据质量,同时嵌入医疗合规的脱敏与溯源机制。最终落地的智能体可自动关联患者全周期健康档案,大大提升了诊疗建议的准确率,首次实现从 “数据孤岛” 到 “智能诊疗” 的闭环。



“我们用 MOI 帮医院盘活了整个数字资产,对他们的数据做了扩增和优化,然后构建了一个相对高质量的训练数据集,最终把这个数据给到他们去做模型训练,最终他们得到的就是这样一个「IBS 智能问诊系统」。”赵晨阳总结道。


破解标书制作难题


在很多大型企业,尤其是制造业里,制作标书是一个相当复杂但必不可少的工作。金盘科技就长期面临这一困扰,动辄 300 + 页的投标文件,需经历 “招标文件解析 - 技术方案匹配 - 资质调取” 三重复杂流程,团队需反复跨部门沟通技术案例与资质文件。员工虽然也尝试用开源的 AI 工具提效,但因产品库、历史中标记录等数据割裂,仅能优化单一环节,最终收效甚微。


在引入 MOI 后,通过其文档智能解析技术识别招标需求,打通了技术、法务、财务部门的数据管道,构建起了 “解析 - 匹配 - 调取” 的多智能体工作流。例如输入招标参数后,AI 自动检索类似项目方案生成技术应答,并同步触发资质文件的合规脱敏,使标书内容生成准确率达 90%,制作周期也从 7-10 天缩短至 1-2 天,更将分散的业务知识沉淀为可复用的数字资产库。


邓楠在访谈中补充表示:“工程领域标书制作存在三大核心难点:首先是招标文件的信息提取,面对十几个文件组成的复杂包件,需从大段内容中精准定位不足 500 字的核心要求,而不同标书的版式差异更增加了提取难度;其次是素材准备与校验,需跨业务系统调取产品资料、资质证明、历史项目合同等数据,并人工核对发票金额、项目关联性等细节;第三是标书制作环节,大量机械性的复制粘贴与格式调整不仅效率低下,还易出现内容混淆。对此,MOI 通过 AI 信息提取技术快速锁定招标文件关键要素,打通企业内部数据管道实现素材的自动化调取与校验,并借助多智能体协同完成从信息整合到标书生成的全流程提效,有效破解了传统标书制作中的痛点。”


透过这两个案例不难看出:当 AI 脱离数据基建时,即便大模型参数再高也只能解决零散问题;而 MOI 通过 “数据治理 + 智能协同” 的闭环,让 AI 从 “单点工具” 进化为 “业务引擎”。这种从技术参数到场景价值的跨越,正是矩阵起源定义的 “数据智能” 本质 —— 不是花哨的模型表演,而是让企业敢将 AI 用于核心业务的 “基础设施”。


结语:智能时代的“数据基建者”


矩阵起源的故事,本质是中国技术团队对“企业 AI 落地难”的一次系统性回应。当行业还在争论“模型重要还是数据重要”时,王龙的团队已经用超融合架构、反馈闭环、场景深耕,搭建起连接数据与 AI 的桥梁——这座桥梁不是炫酷的概念,而是让企业敢将 AI 用于核心决策的“基础设施”。


当被问及“是否对标 Snowflake 或 Palantir”时,王龙给出了明确答案:“我们不做美国企业的翻版。中国制造业的复杂度、政策合规的特殊性,决定了数据基建必须走‘场景深度×技术广度’的中国范式。”这种范式既体现在当前的产业生态布局中,也指向未来数据基建的发展方向。


正如发布会上王龙强调的:“为数字世界提供简捷强大的数据智能操作系统,用‘数据飞轮’为 AI 时代的企业提供澎湃动力!”在 AI 原生的浪潮中,矩阵起源的探索或许正在证明:中国企业的智能落地,不需要复制海外路径,而是要基于自身场景,构建属于自己的数据基建——这既是破解当前困局的钥匙,也是迎接未来竞争最扎实的底气。


2025-09-16 10:3116

评论

发布
暂无评论
发现更多内容

ChunJun FTP Connector 功能扩展解读

袋鼠云数栈

开源 企业号 6 月 PK 榜

开源赋能 普惠未来|中软国际寄语2023开放原子全球开源峰会

开放原子开源基金会

开源 开放原子开源基金会 开放原子全球开源峰会 开放原子

火山引擎DataLeap的Catalog系统搜索实践 (二):整体架构

字节跳动数据平台

元数据 catalog DataLeap 文档检索

英特尔持续耕耘锐炫显卡:累计21次驱动更新,支持XeSS游戏达50+

E科讯

Git分支教程:详解分支创建、合并、删除等操作

小万哥

git Linux 程序员 C/C++ 后端开发

深度学习进阶篇[8]:对抗神经网络GAN基本概念简介、纳什均衡、生成器判别器、解码编码器详解以及GAN应用场景

汀丶人工智能

人工智能 深度学习 GAN 博弈论 生成对抗网络

如何基于G6进行双树流转绘制? | 京东云技术团队

京东科技开发者

双数组trie树 CRM系统 企业号 6 月 PK 榜 复杂树

设计模式详解之策略模式

阿里技术

设计模式 策略模式

UniFi USW-Flex 室内-室外 POE 交换机

HoneyMoose

软件测试/测试开发丨学习笔记之Allure2测试报告

测试人

程序员 软件测试 自动化测试 测试开发 Allure

M2M场景之客户端凭证模式|OIDC & OAuth2.0 认证协议最佳实践系列 【4】

Authing

OAuth 2.0 Oauth OIDC

开源赋能 普惠未来|UBSICE诚邀您参与2023开放原子全球开源峰会

开放原子开源基金会

大数据 开源 开放原子

编写Java代码时应该避免的6个坑

越长大越悲伤

Java

从0到1搭建自己的脚手架(java后端) | 京东云技术团队

京东科技开发者

Java 后端 脚手架 Java脚手架 企业号 6 月 PK 榜

开源赋能 普惠未来|ZTDBP诚邀您参与2023开放原子全球开源峰会

开放原子开源基金会

开源 开放原子全球开源峰会 开放原子

开源赋能 普惠未来|TKEStack诚邀您参与2023开放原子全球开源峰会

开放原子开源基金会

开源 开放原子开源基金会 开放原子全球开源峰会

Tomcat 安装与启动

Andy

玩转服务器之数据传输篇:如何快速搭建FTP文件共享服务器

京东科技开发者

数据传输 云服务器 ftp服务 企业号 6 月 PK 榜

RustChinaConf 2023官网上线,精彩议题早知道

Mike Tang

华秋硬创 | 全国科技工作者日,致敬每一位科技创新者!

华秋电子

PS图像无损放大插件 Blow Up 3最新激活版

真大的脸盆

Mac Mac 软件 图片无损放大 无损放大插件

深度学习进阶篇[9]:对抗生成网络GANs综述、代表变体模型、训练策略、GAN在计算机视觉应用和常见数据集介绍,以及前沿问题解决

汀丶人工智能

人工智能 深度学习 计算机视觉 GAN 生成对抗网络

GPT现状终于有人讲清楚了!OpenAI大牛最新演讲爆火,还得是马斯克钦点的天才

Openlab_cosmoplat

开源 AI ChatGPT

分而治之--浅谈分库分表及实践之路 | 京东云技术团队

京东科技开发者

数据库 后端 分库分表 SaaS 平台 企业号 6 月 PK 榜

ShareSDK iOS端合规指南

MobTech袤博科技

龙蜥白皮书精选:开源 RISC-V 技术支持软硬件全栈平台

OpenAnolis小助手

开源 操作系统 risc-v 龙蜥社区 龙蜥sig

2天时间3个面试,百度进了3面!

王中阳Go

golang 职场 面经 求职面试 提高效率

PWA结合小程序:为用户带来原生应用体验

Onegun

小程序 PWA

六一新玩法!AI涂鸦秒变精美艺术画

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 6 月 PK 榜

OpenMLDB v0.8 新功能:离线引擎数据源支持 Amazon S3

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

GenAI 退烧后,这家企业正在用 “数据平台” 重构AI2B的底层逻辑_大数据_付秋伟_InfoQ精选文章