写点什么

数据「熵增」时代,AI 如何以标准重构治理秩序?

  • 2025-07-01
    北京
  • 本文字数:2601 字

    阅读完需:约 9 分钟

数据「熵增」时代,AI 如何以标准重构治理秩序?

Agent 热潮不减,但数据分析与治理状况却仍存在短板。据 Gartner 公司预测,到 2027 年,80% 的数据和分析治理举措或将因各类原因而失效。如何在 AI 时代重塑数据治理体系,让混乱数据重归有序,成为企业智能转型的关键命题。


近日,在 infoQ 举办的全球人工智能开发与应用大会上,瓴羊智能数据建设与治理产品 Dataphin 高级技术专家 周鑫 受邀出席,以「基于统一标准的智能数据治理 Dataphin 的落地实践」为主题,系统阐述了以数据标准为核心,实现可持续数据治理的方法论,以及以 AI 赋能自动化数据治理、重构复杂业务流程的实践路径。

数据「熵减」之道:基于统一标准,打造数据治理方法论


“事物天生具有‘变混乱’的趋势,数据也是如此。如何将无序变得有序?按照热力学第二定律,需要从外界输入能量,并且具备感知能力。”


周鑫表示:“对于数据治理来说,能量就是治理工具,感知就是标准规范。”数据治理是实现数据世界的“熵减”,它可以通过现状评估、制定目标、执行计划、持续监测四个治理阶段,帮助数据生产者打破孤岛,实现低成本数据开发,帮助数据管理者做好资产盘点,确保数据质量与安全,帮助数据使用者便捷用数,助力决策分析。



但在现实情况中,许多数据治理的结果通常会面临失败,周鑫将其归结为四个原因:1)治理动作分散,缺乏体系化方法论;2)治理流程复杂,重度依赖人的能力和素质;3)缺乏工具支撑,导致理论与实施脱节;4)无法持续治理,治理策略难以快速调整。



面对以上四类问题,Dataphin 提出了一套以数据标准为中心的数据治理方法论及产品化的落地。其核心逻辑为:聚焦 Data x AI,用中台方法论构建统一的数据标准,打造企业级好数据,帮助企业形成数据生产、数据消费、行业数据流通的数据要素服务链,驱动数据价值的释放。


“方法论的核心关键,在于以数据标准为中心。数据标准贯穿数据整个生命周期,它让数据治理具备核心抓手,不会漫无目的”,周鑫表示,企业需从核心业务入手,先行试点开展业务梳理与盘点工作,将相关统一纳入 DataCatalog,并在此过程中逐步形成对应的数据标准。


标准梳理完成后,平台即可开展标准构建:通过统一的数据标准,自动实现质量监控与安全分类,保障开发过程规范,阻断不规范数据开发。同时,统一标准可提升数据的可理解性与细节清晰度,实现数据从生成、开发到消费的全生命周期标准化管理。



“整个治理链路就是以数据标准为中心,将传统的复杂的治理手段,简化成数据标准的梳理与治理效果的评估过程,数据符合标准的程度越高,整体数据质量也就越好”。


周鑫表示,该方案以数据标准为核心,通过插件集成、API 注册和准实时同步等多种方式采集元数据,并统一纳入 DataCatalog,结合质量规则和安全策略进行自动识别与治理。这一方法论具备三大优势:一是体系化,明确治理目标与路径;二是易落地,借助一体化工具和 AI 能力,贯穿数据全生命周期;三是可持续,以标准驱动模式便于应对业务变化,有效降低治理成本与复杂度。

语义知识 + 流程提效,智能 Agent 多场景赋能数据治理


许多企业在应用 Agent 时都难免遇到一个难题:Agent 虽然具备一定的智能和对话能力,但在复杂业务场景中常常“空转”,无法真正理解业务语境、解决预期的实际问题。


周鑫表示,造成这一现象的根本原因,“在于数据质量偏低或数字化基础薄弱,导致 Agent 无法有效发挥价值,最终企业只能被迫放弃”。


AI 时代,优质数据至关重要,但“好数据”应如何获取?AI 又该如何赋能数据治理?


首先,“Agent 在没有丰富准确的语义知识下,不可能达到可生产使用的准确率”,周鑫认为,企业获取好数据,需要构建准确且丰富的语义知识体系。Dataphin 针对这一需求,打造了包含元数据、数据标准、数据模型、业务知识四大语义知识体系。企业可以通过采集丰富且统一的元数据,建立涵盖码表、词根、值域及安全分类分级的标准体系,依托 Dataphin 智能构建的概念模型、逻辑模型和物理模型,以及对业务词条和逻辑的高效管理,实现对复杂业务知识的精准映射和应用。



以 NL2SQL 为例,Dataphin 通过引入业务语义,不仅提升了问题泛化能力,还大幅提高了 SQL 匹配的准确率,显著增强了对自然语言的理解能力。实测数据显示,在 Dataphin 开放数据共享模型涵盖的 45 个典型问题中,简单问题的 SQL 准确率从 70% 提升至 80%,而中等及复杂问题的准确率更是从 10% 跃升至 60%。


其次,企业还需借助 AI,对数据治理链路进行提效。基于 TaskWeaver 改造,Dataphin 构建了具备生产化能力的 Agent 框架,覆盖研发、治理、资产问答等多个场景,显著提升了现有流程效率,拓展了 Agent 的应用边界。


以 NL2SQL 为例,系统可在识别信息不全时自动发起反问,补全后再继续处理,确保复杂业务场景下依然具备高理解力与执行准确率。同时,Dataphin 的开放能力不断演进,从传统的 API 和数据服务扩展至 MCP 模式,支持更灵活的接入方式,适配非固定流程和动态交互等复杂需求。


在智能找表场景,Dataphin 有效解决了用户将复杂业务问题,转化为准确搜索词的难题。“引入 AI 后,你可以用业务的语言直接问,比如‘我要做客户分层’,‘我要用哪张表’,AI 会用大模型去对业务问题进行拆解和泛化,最后找关联到你已有的全域资产”。



在数据分析场景,Dataphin 通过专辑机制与丰富的语义知识,解决了因语义知识的缺失或混乱,相似口径和命名干扰、以及海量表格带来的找表难题,显著提升了找表的效率与准确率。



在数据治理场景,Dataphin 通过“性别”等复杂字段特征识别,解决了正则表达式“不会写”、“看不懂”难题,取代了传统人工探查的繁琐过程,以往需要耗费十几分钟的特征识别,如今只需几十秒即可完成。



在数据管家场景,资产上架往往涉及表描述、字段注释、目录归属、标签分类等复杂操作,尤其在字段数量众多时,人工维护工作量大、耗时长且易出错。通过引入 AI 能力,Dataphin 支持属性信息的智能生成,可一键生成表 / 字段描述信息、目录、标签等,使人力成本与操作门槛大大降低。



目前,Data x AI 发展仍处于以模块提效为主的第一阶段;随着 AI 对复杂节点的处理能力增强,Dataphin 正在以“智能工作台”有机整合独立模块,重构整体业务流程。“有了 AI 之后,工作台模式可以让很少的人,完成复杂的业务,每个环节都有大量 AI 和自动化能力支撑,人们干的最多的事情是进行确认。”周鑫表示,未来,AI 还将在更多场景中深度参与,从辅助提效逐步向自动化、智能化方向迈进,推动企业实现数据治理范式的全面升级。

2025-07-01 14:271

评论

发布
暂无评论

程序员大佬怎么跳槽?

程序员干货站

Python 人工智能 程序员 后端

Graylog部署文档

勤而行之

Linux 开源 工具 日志分析

我们有来生吗?

Janenesome

读书 碎碎念 猎奇

七大查找算法,面试考试皆可用

我不自豪谁志豪

Java 面试 算法

书籍推荐

蛤蟆先生

读书

乞丐版英制单位转换

escray

学习 CSD 认证实战营

有节制的设计

胖鱼2号

微信 设计 無印良品

JAVA 程序展示时间与数据表保存的时间相差了 13 个小时!

我不自豪谁志豪

MySQL 学习 后端

快捷考勤打卡设置

Megatron7

ios

python 之 「奶茶名字」的词云展示

小匚

Python python 爬虫 python教程

Redis学习笔记(字符串类型)

编程随想曲

redis

1分钟系列-Elastic Stack(ELK)简介

Yezhiwei

Logstash Kibana ELK

一次生产事故导致系统崩溃的原因排查过程

hellocj

低代码是什么鬼

Jeff Kit

低代码 全栈 开发

一次线上服务高 CPU 占用优化实践

挖坑的张师傅

性能优化 JVM cpu

字节流(InputStream/OutputStream)

Howe

Java 工作流

《零基础学Java》 FAQ 之 2-Java版本那点事儿

臧萌

Java

Flutter引擎源码解读-内存管理篇

Geek_70xtik

flutter ios android 跨平台 dart

Java并发编程基础--volatile

Java收录阁

volatile 线程

maven私服搭建

kcnf

maven

pip 配置路径要死记硬背?

风起帆扬了

Python Linux windows pip

取舍与可测试

孙苏勇

产品 产品设计 产品开发

如何在“写作平台”做一个读者

小天同学

思考 写作平台 建议 读者 阅读量

Bash 的4种运行模式

Megatron7

bash Linux DevOps Shell

利用goaccess分析nginx日志

Megatron7

nginx Linux

Kubernetes 将迎来首个 LTS 版本

倪朋飞

Kubernetes 容器 微服务

理解 KL 散度的近似

Neil

人工智能 学习 Deep learning Machine Learning

回"疫"录(8):我怀疑我病了

小天同学

疫情 心理 回忆录 现实纪录 纪实

面试考试可用,十大排序算法

我不自豪谁志豪

学习 面试 算法

《零基础学Java》 FAQ 之 1-HelloWorld程序发生了ClassNotFound错误怎么解决

臧萌

Java Hello World !

聊聊我的程序员下属

程序员干货站

Python 人工智能 程序员 程序人生

数据「熵增」时代,AI 如何以标准重构治理秩序?_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章