NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

对话式 AI 系列:领域知识中台建设方法论与实践

作者:张杰博士

  • 2022-12-02
    北京
  • 本文字数:4404 字

    阅读完需:约 14 分钟

对话式AI系列:领域知识中台建设方法论与实践

知识成为企业核心资产和创新驱动力的时代已悄然来临,如何高效管理和充分运用知识资产成为企业面临的重要课题。作为智能交互系统的主要子系统,领域知识中台成为解决这一难题的关键所在。本文作者系中关村科金技术副总裁张杰博士,分享了中关村科金领域知识中台建设方法论与实践经验。


依托于对话式AI技术智能对话系统,相对于传统的营销服系统(如呼叫中心、客服系统)而言,不仅仅是一款连接用户的沟通系统,更是一款拥有决策能力的、以自然语言进行人机对话交互的系统,具备实时交互能力、客户洞察能力、业务决策能力、最佳实践总结能力。完整的智能对话系统包含三个主要的子系统:客户洞察系统、领域知识中台和对话引擎。其中,领域知识中台主要负责对企业内的领域知识做全生命周期管理,通过人机交互的方式将企业的核心生产要素、核心价值活动做统一化、标准化处理,帮助企业解决知识难以集中管理、难分享、难传承的问题。领域知识中台可以同时支撑对内的知识检索、员工培训以及对外的精准营销、客户服务等。

领域知识中台建设初衷:更加高效的留存、挖掘、管理、传承知识资产


在经历了信息化、网络化之后,越来越多的企业开始意识到,很多业务场景下的智能化应用都依赖于领域知识库的建设,智能程度的高低往往取决于自身拥有的知识资产的多少,这在知识复杂度高的行业里尤为明显。知识成为企业核心资产和创新驱动力的时代已悄然来临,越来越多的管理者开始重视企业内部统一的知识中台建设。


然而,在现阶段很多企业仍然通过员工培训、文档管理和数据管理来间接地管理和传播知识。员工培训的方式效率低下、成本过高;文档的方式粒度大,难以定位到知识片段;数据的方式粒度过细,对业务人员不够友好。因此,多数企业会面临以下几项问题:


  • 知识难留存: 现有的 IT 系统对知识的保留比较分散,并且非强制化和制度化。同时,大量的知识和经验都是非结构化的,很多 IT 系统也不支持对非结构化数据进行留存。

  • 知识难挖掘: 很难有效实现隐性知识资产显性化,企业在内外部信息环境变化快的状况下,即便掌握了数据,仍难及时做出响应或决策。

  • 知识难管理: 企业管理者难以把知识当作自身的资源和所有物去管理,难以对知识资产的价值做评估。在员工培训、营销、客服等场景下,知识维护的入口和管理界面分散在不同系统里,有时甚至同一个场景(如客服)下的不同渠道(如官网、小程序、呼叫中心)都没有统一管理。

  • 知识难传承: 骨干员工离职会影响企业的总体价值,老员工的经验无法沉淀,新人培养周期长。

领域知识中台建设方法论:两类用户、三类知识和六步建设法


为了解决上述问题,尤其是为了在营销服等系统中提升用户对话过程中的准确度,中关村科金总结过往在金融、政务、医疗等行业的实践经验,提出了一套构建领域知识中台的方法论,其核心内容可总结为:两类用户、三类知识和六步建设法。


两类用户包括知识官和知识工程师。知识官往往是企业内的高级专家,负责定义全局概念体系和管理知识。知识工程师往往是业务一线的基层管理者,负责贡献单条知识。


三类知识包括事实知识、原理知识和技能知识。以往的研究主要集中在事实知识上,原理知识多是按照技术路线区分,技能知识多是从管理学视角出发,科技公司极少能够给出 IT 方面的实现方案。三类知识与两类用户的关系如图 1 所示。



图 1 两类用户与三类知识的关系


六步建设法按照处理流程串行实施并形成闭环,完整地实现了从各类包含显性知识和隐性知识的数据源中抽取出陈述性知识和程序性知识并做形式化表示,然后以多种方式提供知识服务,最后促进已有知识的迭代和新知识的产生,如图 2 所示。



图 2 六步建设法


六步建设法具体包括以下步骤:


(1) 知识建模: 为了有效组织领域内业务活动中的几类关键数据,需要建立起知识的模型,定义出两个概念体系。一个是类别体系,包含领域内的类别、类别所包含的属性及其约束、类别间的关系类型;另一个是任务体系,包含领域中要面对的场景、场景下的细分任务、处理任务所需考虑的判断条件和工作流程等。有些领域在国家主管部委或行业联盟组织的推动下建立了相应的国标、行标,便于成员间的数据共享和流程标准化。


(2) 知识抽取: 知识抽取的目的是为了从数据源中抽取出知识片段,理解其语义后再做有序的组织和存储。涉及的知识通常是明确定义的、事实性的信息,这些信息来自不同的数据源、具有不同的结构。对不同数据源进行知识抽取的方法各有不同:从结构化数据中获取知识的操作常被称为映射(Mapping),需要编写映射脚本,其难点在于复杂的关系表的处理,包括嵌套表、多列、外键关联等;从半结构化和非结构化数据中获取知识的操作单元常被称为包装器(Wrapper),其难点在于包装器的生成、更新和维护。从非结构化文本中抽取知识时就是广义上说的抽取器(Extractor),其中三个最重要的子任务是:实体识别、关系抽取和事件抽取。


(3) 知识管理: 广义的知识管理被定义为“对知识、知识创造过程和知识的应用进行规划与管理的活动”。此处狭义的知识管理作为知识中台的一项系统功能是指:通过提供用户交互接口对事实知识库、原理知识列表、技能知识库中的知识条目做体系化组织,如增删改查、推荐、问答、订阅分享等操作,并最终存储于数据库中。


(4) 知识计算: 三类知识除了供人类用户使用,还应该被计算机无歧义的调用执行,为上层的应用系统提供 API 接口调用。由于三类知识经过体系化的整理,相当于人工的建立起更多的结构关联,拉近了相似知识片段间的语义距离,从而使其超越了字符串匹配式的语义计算方法,作为一项基础服务进一步提升上层应用系统的性能。


(5) 知识应用: 知识在真实条件下经过有效性和稳定性验证后,可在组织内部进一步推广应用。应用层常见的使用方式有两种,一种是较为通用的技术型应用,如可视化洞察、信息检索、推荐系统、问答系统等;另一种是具有行业特色的解决方案型应用,如金融反欺诈、快消品营销、工业维保等。无论以何种形式服务于用户或应用层系统,均需收集实际的应用反馈结果,以用于上述步骤的更新优化,从而形成闭环。


(6) 知识演化: 知识的有效应用并不是终点,知识中台带来的一项额外的增值是促进知识的动态演化,形成良性循环。随着内外部新知识片段不断加入到统一的知识体系中来,系统及时发现已有知识之间相似性、主动的推送给最有可能与之产生交互的人,从而对已有知识进行更新、促进新知识的应用和启发式创新。

中关村科金知识中台技术方案:实现数据全生命周期管理


为了实现从收集原始数据到产生应用决策的全生命周期的各个步骤,作为领先的对话式 AI 技术解决方案提供商,中关村科金总结了在银行、信托、证券、公安、社保、制造、医疗等 10 多个行业 500 多客户的项目经验,形成了一套知识中台的技术实现方案,该方案包括六大子系统,技术架构如图 3 所示。



图 3 技术架构图


  • 数据接入子系统:用于将分散于各个数据源中的数据统一进行采集、解析、去重和变换,并对这些任务做调度、优化与监控。

  • 知识抽取子系统:用于通过一系列技术方法从数据接入子系统所提供的结构化数据和非结构化数据中抽取出实体、关系、属性等知识片段。

  • 人机交互子系统:用于为知识工程师和知识官提供可视化的多轮交互界面,不断新增、修改和更新三类知识。

  • 知识管理子系统:用于对已有的知识做底层存储,并保证知识表示规范的兼容性、一致性,明确不同知识子类型的形式化表示方法、相关约束、子类型间的关系等,常用的知识子类别包括词典、类别、属性、实例、指标、规则、模型、工作流等。

  • 知识计算子系统:一方面用于自动化的执行已有的各类原理知识和技能知识;另一方面基于演绎、规则、模型,融合逻辑学和图论算法对已有知识做进一步的融合整理后进而获取新知识。

  • 知识应用子系统:用于提高资源优化配置效率,对接并帮助企业内的办公系统、生产系统、协作系统等,以实现科学决策、精准决策、高效决策。较为普遍的应用需求包括可视化、检索、推荐、问答,行业特性相关的应用多为利用图模式匹配算法做团伙发现、关联推荐、关系推理等。


在没有知识中台的情况下,企业仍然可以管理知识、利用数据解决业务问题,就像在没有数据仓库的情况下,企业也能做数据管理一样。但有了知识中台之后,可以让知识体系更清晰,知识复用更高效。中关村科金知识中台技术解决方案成功克服了以下几项关键技术挑战,并为企业客户带来相应的增值:

  • 通过知识表示技术,使知识更加可解释,使其同时表示为人类语言和机器语言,既具有一定的业务可解释性,便于业务人员理解和传播,又可以无歧义地在计算机上执行,便于自动化地做知识关联和输出预测建议。

  • 通过知识抽取技术,建立企业内部全局统一视图,为企业内不同职能部门提供全局视角,使各自的语言体系得以对齐,提升跨部门的协作效率,便于成果整合和复用。

  • 通过知识增强技术,将节点的网络结构信息、上下位等关系信息、节点本身的属性信息等融入到节点的表示方法里,提升下游 AI 任务(如检索、推荐、问答、规划、预测等)的准确度。

  • 通过人机交互技术,促进知识创新,让机器及时发现相似性知识,并主动推送给相关人员,以人在回路(Human-in-the-loop)的方式产生新类比、新启发,促进新一轮的知识创造。

总结展望:知识中台是企业面对未来市场竞争的战略布局


随着人工智能、大数据技术的普及,很多行业感受到来自技术的倒逼压力,数字化转型已然成为不可逆转的发展趋势。数字化转型的首要步骤是数据在线,随后是智能化应用。对话式 AI 是营、销、服等多个场景中均需应用的技术,其背后的支撑是客户洞察和领域知识。


领域知识中台的建设不单是为了让各种对话场景更加智能,还可以支持企业内信息检索、员工培训、产品研发等场景,是知识密集型企业在数字化转型之路上必经的一站。


现阶段知识中台的建设仍面临很多技术挑战,如:

  • 构建成本问题:对于结构化数据需要复杂的数据治理工作,对于非结构数据需要大量的标注工作。

  • 推理准确度问题:知识计算为搜索、推荐等上游任务的准确度带来提升,但其独特的应用价值在于具有可解释性的推理,需要在领域知识不完备且数据总量大的情况下进行快速准确的推理。

  • 形式化表示问题:一切知识应用问题归根结底都在于知识表示,已有技术成果多集中在事实知识上,对于原理知识和技能知识的研究仍缺乏深入的数学和认知理论基础,现有的一些实践技术路线难以统一。

  • 多模态问题:随着5G物联网和感知技术的普及,企业非结构化数据的占比会越来越高,从语音、图像、视频的多模态数据中联合抽取知识的需求会越来越多,通过终端设备以多模态交互、人机协同的方式辅助实时决策的需求对技术和产品设计而言将是双重挑战。


放眼未来,各类知识密集型行业均需建立自己的行业大脑,行业大脑将会成为企业在市场竞争中的战略控制点,由企业自身运营维护,知识作为企业资产不断地沉淀和更新。知识中台将会成为企业数字化转型中打通底层数据和上层应用的关键组件,帮助企业解决知识难留存、难挖掘、难管理、难传承的问题,为企业在新经济环境下的市场竞争做战略布局。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-12-02 14:113957

评论

发布
暂无评论
发现更多内容

我用这10招,能减少了80%的BUG

快乐非自愿限量之名

软件开发 bug

权威答案!灵犀医疗引入 Zilliz Cloud,千万级向量数据库赋能医学 AIGC 平台

Zilliz

Zilliz AIGC zillizcloud 灵犀医疗

从源码到实战:探寻App中的等待神秘力量,强制等待 vs 隐式等待对决

测吧(北京)科技有限公司

测试

探索“人工智能+”战略下的企业切入点

不在线第一只蜗牛

DevOps转型的意义:加速创新、提高效率

快乐非自愿限量之名

DevOps 自动化运维

小程序生态是更灵活构建超级App的方式

FinFish

小程序生态 小程序容器 超级app

低代码与前端开发的未来:走向更高效的创新

EquatorCoco

Elasticsearch 原理与在直播运营平台的实践

字节跳动云原生计算

搜索 ES

跨境电商新篇章:alibaba.item_get API接口助力商家精准营销

技术冰糖葫芦

api 货币化 API 接口 pinduoduo API

云原生与ChaosMeta

ChaosMeta

C++ 类方法解析:内外定义、参数、访问控制与静态方法详解

小万哥

程序人生 编程语言 软件工程 C/C++ 后端开发

“小瓦AI答”全新升级

Laval小助手

这些Git事故灾难, 你经历过几个?

EquatorCoco

git

TapData 正式上线 MongoDB 生态合作伙伴专栏,提供更专业的企业级实时数据集成解决方案

tapdata

mongodb 合作伙伴 生态伙伴

世界读书日!边阅读边做笔记,这个一站式知识梳理软件太酷了吧!

彭宏豪95

AI 思维导图 阅读 在线白板 AIGC

Adobe Bridge 2024(Br2024) v14.0.4.222 (x64)直装版

iMac小白

HarmonyOS 性能优化

不在线第一只蜗牛

HarmonyOS 鸿蒙系统

MQTT Broker 白皮书:全面实用的 MQTT Broker 选型指南

EMQ映云科技

mqtt mqtt broker

智能工单,一键报障|云智慧轻帆云打造连锁企业服务管理新体验

云智慧AIOps社区

运维 IT服务管理 工单管理 工单系统 智能工单

什么是云渲染?云渲染平台怎么使用?云渲染怎么收费?

3DCAT实时渲染

云渲染 实时渲染 云渲染价格

腾讯云APP备案指南:一站式完成备案手续,助您顺利上线

雪奈椰子

火山引擎数据飞轮行业研讨会在京举行 聚焦互联网企业数智化升级

字节跳动数据平台

大数据 数字化转型 云服务 火山引擎 企业号 4 月 PK 榜

软件开发生产线CodeArts 4月新特性预告,一睹为快!

华为云PaaS服务小智

软件开发 华为云

聚道云软件连接器助力企业实现滴滴出差报销自动化

聚道云软件连接器

案例分享

如何将二维码收集的某项信息作为重点展示?

草料二维码

二维码 草料二维码

​ 【教程】APP代码混淆的方法和利弊与破解APP过程

鸿蒙HarmonyOS实战-ArkUI组件(mediaquery)

蜀道山

鸿蒙 HarmonyOS 鸿蒙开发 MediaQuery

OneCommander Pro(双窗口文件管理工具)v3.75.1.0 特别版

iMac小白

深入分析C++对象模型之移动构造函数

爱分享

c++ 性能优化 代码优化 C++构造函数 C++移动构造函数

亚马逊云集齐 Claude 3 全家桶;世界数字技术院发布大模型安全国际标准丨 RTE 开发者日报 Vol.187

声网

鸿蒙HarmonyOS实战-ArkUI组件(List)

蜀道山

鸿蒙 HarmonyOS 鸿蒙开发 鸿蒙系统

对话式AI系列:领域知识中台建设方法论与实践_AI&大模型_InfoQ精选文章