硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

Data Agent 落地挑战:忽略技术框架、语义能力和运营体系,投入可能打水漂

  • 2025-08-17
    北京
  • 本文字数:3529 字

    阅读完需:约 12 分钟

大小:1.75M时长:10:10
Data Agent 落地挑战:忽略技术框架、语义能力和运营体系,投入可能打水漂

Data Agent 看似轻松上手,但真正落地却充满挑战。虎兴龙在专访中指出,90% 的难点源于软件工程,而统一语义层建设是成功的关键。企业如果忽略场景聚焦、技术框架的可迭代能力或语义模型和运营体系,即便投入几个月,也可能无法监控、评估或修改,最终停留在原型阶段。掌握统一语义层、完善的技术框架和运营体系,才能让 AI 代理真正理解数据、快速迭代、落地应用,显著提升企业数据智能化效率。

 

采访嘉宾:虎兴龙,腾讯数据工程专家。目前负责腾讯云 WeData 数据治理、数据智能方向的产品和研发工作,涵盖 Data Agent、AgentOps、统一语义层、全域数据资产管理、数据质量管理等核心产品能力建设。有深厚的大数据技术架构、大数据应用平台建设经验,在 AI for Data 方面,有丰富的实践经验。虎兴龙将在 8 月 22 日-23 日AICon深圳站发表主题为《腾讯云 WeData Agent 的落地思考与实践》。

 


InfoQ:过去 BI 系统很多时候是“看数”,如今进化到从“看”到“做”,从系统工程角度看,这背后意味着什么样的技术支撑?

 

虎兴龙:Agent 的交互形态可以比作是数据分析的新“head” ,新 Head 一定需要新的技术支撑。我认为必须必要的两方面技术革新:1、需要有数据语义工程的平台化能力,数据工程、数据平台不止交付数据内容,还应该交付可被分析的语义。需要有数据语义层为 Data Agent 提供可靠的知识、高性能的数据操作接口;2、需要有完善的 Agent Ops 平台基础,目前 Agent 开发框架发展很快,但是 Agent 的运营体系其实很关键并且是存在不足的,Agent 运营体系主要解决怎么观测、评估、迭代进化问题。

 

数据工程的交付未来也会进一步升级,数据工程师未来的工作应该是 Data engineering + Data Context Engineering。目前我们腾讯云在这两块的投入和发展都是比较快的,目标是能够为客户提供 data+ai 一体化的数据智能底座。

 

InfoQ:过去几年我们一直在谈论湖仓架构,企业数据平台的重心主要在数据的整合与存储。但现在,您是否认为重点已经逐步转向了构建“语义层”?

 

虎兴龙:Data Agent 要做好,数据语义上下文的重要性和挑战已经不言而喻,Data Agent is Easy,Data Context is Hard.语义层建设的重要程度大家已经共识,国内外都在加大这里的投入,腾讯云 WeData 在这一块的投入也是比较早的。同时多模态一体化、高性能存算引擎也仍然很重要,一体化的存算引擎也支撑着统一语义层的元数据、统一数据访问能力。Data Agent 一是要准确响应用户请求,离不开语义层,另一方面需要快速响应用户需求,也离不开高性能存算引擎。

 

InfoQ:数据语义层主要包含哪些语义?系统能力哪些关键组成模块?

 

虎兴龙:数据的语义主要包含 4 个方面:①概念:主要描述数据代表的业务意义;②数据的关系:数据表之间的关联关系、血缘关系等;③指标:即数据的计算口径;④维度:即数据的观测角度。

 

语义层的目标是为 Agent 提供准确统一的数据访问接口,核心能力包括 4 块:①统一访问接口:需要提供 API、JDBC、MCP 等生态对接能力,能够被 Agent、BI 工具方便集成调用;②MetaRAG:需要有对语义元数据构建知识库,能够根据用户 query 准确召回数据;③语义建模能力:强大的语义表达能力,尤其是指标表达能力,一些很复杂的指标,如何抽象定义,定义后如何自动生成查询 SQL;④自适应加速能力:Agent 可能生成各种各样的查询请求,需要能够自动或者半自动化的物化加速能力。

 

InfoQ:有观点认为构建 AI 产品的原型其实并不难,但真正上线后却发现需要打磨的地方很多。请问您觉得从原型到成熟产品,最大的落差在哪里?现实中哪些细节和挑战最让您印象深刻?

 

虎兴龙:是的,原型容易,人人现在都能做一个 Agent。最大的落差是我们很容易低估场景落地的难度,现在有个词叫 TMF(Technology-Market Fit) ,其实就是某项技术能解决什么问题的评估和分析。当在 AI 产品投入初期过于乐观,实施过程中遇到瓶颈就极有可能悲观。

 

出现这个问题的原因我觉得有点像“邓宁-克鲁格”效应,我们乍一看模型非常聪明,没实践过复杂场景 Agent 的人会觉得我也能搞得定,草率投入,浪费资源,有 Agent 实践经验的人有可能又会悲观,过于谨慎,错失机会。比如刚开始我们感觉利用 ReAct 自主规划的 Agent 的开发模式,Prompt+模型+MCP 工具,几行代码就搞定了。

 

但实际落地过程中,在数据分析这种追求极致准确性的场景,让按照设定的工作流执行场景也是不可避免的。把 Agent 比做人,一些组织扁平化强调人的自主性,一些组织强调规范的流水线工作,强调行为一致性。落地过程中其实 90%是软件工程,都是在解决行为一致性确定性的问题,可能只有 10%是在做 prompt、模型调优。

 

InfoQ:Agent 会取代一些数据工程师/科学家的角色吗?这些职业会如何变化?是否需要掌握更多与 Agent、LLM 相关的技能?

 

虎兴龙:目前我还是认为 Agent 不会替代数据工程师、数据科学家,但是会替代一部分偏执行的工作。数据蕴含着对整个世界的描述和规律,除非人类被机器统治了,否则数据永远是需要人来主导分析的,Agent 知识辅助人更高效的完成这项工作。

 

但 Agent 会带来数据工作角色的融合,其他行业也是如此,劳动细分是为了解决复杂工程问题,当技术进步让复杂问题的实施变简单,劳动细分导致合作成本就凸显了,各行业在大模型时代,劳动角色融合是趋势,复合型人才会脱颖而出。过去埋点工程师专注做埋点、数据开发工程师专注做 ETL、数据科学家专注做算法、数据分析师专注做报表等等,未来这种分工就不必要了,一种角色端到端完成数据分析。

 

每个人都应该了解 Agent、LLM 的基本原理,这样才能用好大模型技术。

 

InfoQ:您是否同意这样的观点:“谁掌握了企业数据的语义数字孪生,谁就掌握了下游所有 AI 代理行为的主动权”?如果是,您们是如何推动这一趋势的?

 

虎兴龙:目前来看是的,利用 AI Agent 挖掘企业大量的私域数据的难点目前是通用大模型难以理解企业私域数据集,造成 Data Agent 的准确性、信任度不足。人与 AI Agent 的信任的基础是需要有共同的 context,语义模型是对物理世界的环境、关系、知识等结构化的定义和描述,数据分析的语义主要是:数据概念、数据关系、数据指标、数据维度,这正是数据分析领域人与 AI 的共同 context。 腾讯云 WeData 主要的策略是通过统一数据资产平台,统一纳管企业结构化、非结构化数据。在统一数据资产之上,提供统一语义建模平台,让企业进行 Data Context Engineering,为 Agent 构建语义知识基础。

 

InfoQ:我们往往听到说要做好数据治理才能做好 AI,数据治理和统一语义层是什么关系?

 

虎兴龙:数据治理是一个很广泛的概念,应该说数据治理的工作包含统一语义层的建设,统一语义层是对数据治理的更高要求。传统数据治理包含成本、安全、质量、规范等治理能力是统一语义层基础支撑,统一语义层重点是对数据进行业务建模之后,提供给数据应用层统一的数据知识、数据内容访问接口。

 

InfoQ:Data Agent 系统在接入企业现有平台时面临的最大的技术挑战是什么?

 

虎兴龙:主要有两方面挑战,第一个挑战是数据治理的挑战,企业数据杂乱,数据缺乏唯一真相。第二个挑战是 Data Agent 的效果无法评估,或者各企业评估体系和策略不统一,无法评估就无法迭代。 Agent 评估其实目前是行业难点,评估一个 text2sql 的原子能力容易,但是评估 Agent 解决一个分析问题的成功率比较困难,有些甚至需要有垂直场景领域专家来打分评测。

 

这两个挑战的解法目前来看主要还是 Data Agent 场景聚焦,针对特定场景的统一语义层和评估体系构建。

 

InfoQ:企业构建统一数据语义层的挑战是什么?应该从哪里入手?

 

虎兴龙:数据的语义也是非常广泛的,首先聚焦场景进行语义抽象,例如数据分析 Agent 的场景,就聚焦构建指标、维度体系,其次是存量数据治理问题,大量的数据,如何标注语义,例如数据分析 Agent,已经有大量的报表和 ADS 表了,怎么重构指标体系。这里基本没有太多捷径可以走,虽然有一些 AI 辅助的治理能力,但是避免不了大量的人力投入。整体关于统一语义层的入手点,我建议企业重点聚焦智能问数智能分析场景,先以指标平台为载体构建指标语义层,这个场景目前是被验证可行并且可以大幅提升数据分析效率的。

 

InfoQ:对希望构建 Data Agent 能力的企业数据团队,您有哪些技术建议?

 

虎兴龙:第一,场景聚焦,搭建可迭代进化的技术框架,避免为了快速做 demo,忽略技术选型、技术基建的重要性,否则有可能做了几个月后,没法监控、没法评估、没法修改,还没上线就要重构;

 

第二,语义模型能力是 Data Agent 的基础支撑,语义模型能力同样也能提升传统数据分析的效率,忽略数据语义层的核心能力建设可能导致 Agent 陷入迭代瓶颈,例如把各种 if else 、定制化策略、语义知识硬编码到 Agent 后台,导致无法进行技术升级和迭代;

 

第三、Agent 运营体系很重要,监控、标注、评估体系需要配套。

2025-08-17 10:066684

评论 1 条评论

发布
用户头像
错别字

知识

2025-08-20 18:05 · 福建
回复
没有更多了

Android在开发初期之后应该何如学习?怎样才算精通?方向在哪儿

android 程序员 移动开发

Android学习趋势:讲一下音视频热点知识,移动设备开发图书

android 程序员 移动开发

Android入门项目(八)Android流式筛选弹框,android应用程序开发的流程

android 程序员 移动开发

Android刘海屏、水滴屏全面屏适配方案,80后程序员感慨中年危机

android 程序员 移动开发

Android四大组件之一(broadcast receiver)(1),kotlin版权

android 程序员 移动开发

模块二作业

Geek_1d37ea

架构实战营

Android妹子深夜和我视频,哭的像个泪人,我该怎么安慰

android 程序员 移动开发

Android布局优化技巧大盘点,最新BAT大厂面试者整理的Android面试题目

android 程序员 移动开发

Android刘海屏、水滴屏全面屏适配详解,996页阿里Android面试真题解析火爆全网

android 程序员 移动开发

Android启动优化、布局优化必经之路—如何精准获取页面绘制时间

android 程序员 移动开发

Android大牛近期大厂面试详解(附解答),hashmap底层原理

android 程序员 移动开发

Android基础系列(3)编译时注解处理器APT,android订餐系统源码

android 程序员 移动开发

Android基础进阶 - 消息机制 之Native层分析,统统给你解决

android 程序员 移动开发

Android干货---丢掉你老旧的参数传递方式,投入Bracer的怀抱吧。

android 程序员 移动开发

Android全面解析之Handler机制:常见问题汇总,kotlin静态类

android 程序员 移动开发

Android大牛是如何炼成的:郭霖的成长之路专访,flutter游戏引擎

android 程序员 移动开发

Android布局优化:include-、merge,android开发入门与实战作者

android 程序员 移动开发

Android应用Context详解及源码解析,Android大厂技术面试题汇总

android 程序员 移动开发

Android动画之属性动画,移动智能终端开发技术题库

android 程序员 移动开发

Android复习资料——常见面试算法题汇总,2021年最新Android大厂面试笔试题分享

android 程序员 移动开发

学习总结(第二周)

Geek_1d37ea

架构实战营

Android岗常见40道面试题,面试前必须了解的知识点!,android开发工程师企业所在区域

android 程序员 移动开发

Android原生系统真的那么好用吗?安卓原生系统吊打其他系统,因为有Google-Play

android 程序员 移动开发

Android四大组件之一(broadcast receiver),全网首发

android 程序员 移动开发

Android关于Canvas你所知道的和不知道的一切,银行软件开发面试题

android 程序员 移动开发

Android基础之Binder分析,flutter环境变量配置

android 程序员 移动开发

Android学习别“走弯路”,django实战项目源码

android 程序员 移动开发

Android小白在两年时间成为一个大牛,我究竟做了什么?

android 程序员 移动开发

Android屏幕适配前先了解这些,在阿里工作5年了

android 程序员 移动开发

Android应用保活实践,字节跳动Android研发岗这些知识点内部泄露出来了

android 程序员 移动开发

Android应用启动流程分析(1),android应用开发实战项目

android 程序员 移动开发

Data Agent 落地挑战:忽略技术框架、语义能力和运营体系,投入可能打水漂_生成式 AI_Tina_InfoQ精选文章