【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

对话式 AI 系列:领域知识中台建设方法论与实践

作者:张杰博士

  • 2022-12-02
    北京
  • 本文字数:4404 字

    阅读完需:约 14 分钟

对话式AI系列:领域知识中台建设方法论与实践

知识成为企业核心资产和创新驱动力的时代已悄然来临,如何高效管理和充分运用知识资产成为企业面临的重要课题。作为智能交互系统的主要子系统,领域知识中台成为解决这一难题的关键所在。本文作者系中关村科金技术副总裁张杰博士,分享了中关村科金领域知识中台建设方法论与实践经验。


依托于对话式AI技术智能对话系统,相对于传统的营销服系统(如呼叫中心、客服系统)而言,不仅仅是一款连接用户的沟通系统,更是一款拥有决策能力的、以自然语言进行人机对话交互的系统,具备实时交互能力、客户洞察能力、业务决策能力、最佳实践总结能力。完整的智能对话系统包含三个主要的子系统:客户洞察系统、领域知识中台和对话引擎。其中,领域知识中台主要负责对企业内的领域知识做全生命周期管理,通过人机交互的方式将企业的核心生产要素、核心价值活动做统一化、标准化处理,帮助企业解决知识难以集中管理、难分享、难传承的问题。领域知识中台可以同时支撑对内的知识检索、员工培训以及对外的精准营销、客户服务等。

领域知识中台建设初衷:更加高效的留存、挖掘、管理、传承知识资产


在经历了信息化、网络化之后,越来越多的企业开始意识到,很多业务场景下的智能化应用都依赖于领域知识库的建设,智能程度的高低往往取决于自身拥有的知识资产的多少,这在知识复杂度高的行业里尤为明显。知识成为企业核心资产和创新驱动力的时代已悄然来临,越来越多的管理者开始重视企业内部统一的知识中台建设。


然而,在现阶段很多企业仍然通过员工培训、文档管理和数据管理来间接地管理和传播知识。员工培训的方式效率低下、成本过高;文档的方式粒度大,难以定位到知识片段;数据的方式粒度过细,对业务人员不够友好。因此,多数企业会面临以下几项问题:


  • 知识难留存: 现有的 IT 系统对知识的保留比较分散,并且非强制化和制度化。同时,大量的知识和经验都是非结构化的,很多 IT 系统也不支持对非结构化数据进行留存。

  • 知识难挖掘: 很难有效实现隐性知识资产显性化,企业在内外部信息环境变化快的状况下,即便掌握了数据,仍难及时做出响应或决策。

  • 知识难管理: 企业管理者难以把知识当作自身的资源和所有物去管理,难以对知识资产的价值做评估。在员工培训、营销、客服等场景下,知识维护的入口和管理界面分散在不同系统里,有时甚至同一个场景(如客服)下的不同渠道(如官网、小程序、呼叫中心)都没有统一管理。

  • 知识难传承: 骨干员工离职会影响企业的总体价值,老员工的经验无法沉淀,新人培养周期长。

领域知识中台建设方法论:两类用户、三类知识和六步建设法


为了解决上述问题,尤其是为了在营销服等系统中提升用户对话过程中的准确度,中关村科金总结过往在金融、政务、医疗等行业的实践经验,提出了一套构建领域知识中台的方法论,其核心内容可总结为:两类用户、三类知识和六步建设法。


两类用户包括知识官和知识工程师。知识官往往是企业内的高级专家,负责定义全局概念体系和管理知识。知识工程师往往是业务一线的基层管理者,负责贡献单条知识。


三类知识包括事实知识、原理知识和技能知识。以往的研究主要集中在事实知识上,原理知识多是按照技术路线区分,技能知识多是从管理学视角出发,科技公司极少能够给出 IT 方面的实现方案。三类知识与两类用户的关系如图 1 所示。



图 1 两类用户与三类知识的关系


六步建设法按照处理流程串行实施并形成闭环,完整地实现了从各类包含显性知识和隐性知识的数据源中抽取出陈述性知识和程序性知识并做形式化表示,然后以多种方式提供知识服务,最后促进已有知识的迭代和新知识的产生,如图 2 所示。



图 2 六步建设法


六步建设法具体包括以下步骤:


(1) 知识建模: 为了有效组织领域内业务活动中的几类关键数据,需要建立起知识的模型,定义出两个概念体系。一个是类别体系,包含领域内的类别、类别所包含的属性及其约束、类别间的关系类型;另一个是任务体系,包含领域中要面对的场景、场景下的细分任务、处理任务所需考虑的判断条件和工作流程等。有些领域在国家主管部委或行业联盟组织的推动下建立了相应的国标、行标,便于成员间的数据共享和流程标准化。


(2) 知识抽取: 知识抽取的目的是为了从数据源中抽取出知识片段,理解其语义后再做有序的组织和存储。涉及的知识通常是明确定义的、事实性的信息,这些信息来自不同的数据源、具有不同的结构。对不同数据源进行知识抽取的方法各有不同:从结构化数据中获取知识的操作常被称为映射(Mapping),需要编写映射脚本,其难点在于复杂的关系表的处理,包括嵌套表、多列、外键关联等;从半结构化和非结构化数据中获取知识的操作单元常被称为包装器(Wrapper),其难点在于包装器的生成、更新和维护。从非结构化文本中抽取知识时就是广义上说的抽取器(Extractor),其中三个最重要的子任务是:实体识别、关系抽取和事件抽取。


(3) 知识管理: 广义的知识管理被定义为“对知识、知识创造过程和知识的应用进行规划与管理的活动”。此处狭义的知识管理作为知识中台的一项系统功能是指:通过提供用户交互接口对事实知识库、原理知识列表、技能知识库中的知识条目做体系化组织,如增删改查、推荐、问答、订阅分享等操作,并最终存储于数据库中。


(4) 知识计算: 三类知识除了供人类用户使用,还应该被计算机无歧义的调用执行,为上层的应用系统提供 API 接口调用。由于三类知识经过体系化的整理,相当于人工的建立起更多的结构关联,拉近了相似知识片段间的语义距离,从而使其超越了字符串匹配式的语义计算方法,作为一项基础服务进一步提升上层应用系统的性能。


(5) 知识应用: 知识在真实条件下经过有效性和稳定性验证后,可在组织内部进一步推广应用。应用层常见的使用方式有两种,一种是较为通用的技术型应用,如可视化洞察、信息检索、推荐系统、问答系统等;另一种是具有行业特色的解决方案型应用,如金融反欺诈、快消品营销、工业维保等。无论以何种形式服务于用户或应用层系统,均需收集实际的应用反馈结果,以用于上述步骤的更新优化,从而形成闭环。


(6) 知识演化: 知识的有效应用并不是终点,知识中台带来的一项额外的增值是促进知识的动态演化,形成良性循环。随着内外部新知识片段不断加入到统一的知识体系中来,系统及时发现已有知识之间相似性、主动的推送给最有可能与之产生交互的人,从而对已有知识进行更新、促进新知识的应用和启发式创新。

中关村科金知识中台技术方案:实现数据全生命周期管理


为了实现从收集原始数据到产生应用决策的全生命周期的各个步骤,作为领先的对话式 AI 技术解决方案提供商,中关村科金总结了在银行、信托、证券、公安、社保、制造、医疗等 10 多个行业 500 多客户的项目经验,形成了一套知识中台的技术实现方案,该方案包括六大子系统,技术架构如图 3 所示。



图 3 技术架构图


  • 数据接入子系统:用于将分散于各个数据源中的数据统一进行采集、解析、去重和变换,并对这些任务做调度、优化与监控。

  • 知识抽取子系统:用于通过一系列技术方法从数据接入子系统所提供的结构化数据和非结构化数据中抽取出实体、关系、属性等知识片段。

  • 人机交互子系统:用于为知识工程师和知识官提供可视化的多轮交互界面,不断新增、修改和更新三类知识。

  • 知识管理子系统:用于对已有的知识做底层存储,并保证知识表示规范的兼容性、一致性,明确不同知识子类型的形式化表示方法、相关约束、子类型间的关系等,常用的知识子类别包括词典、类别、属性、实例、指标、规则、模型、工作流等。

  • 知识计算子系统:一方面用于自动化的执行已有的各类原理知识和技能知识;另一方面基于演绎、规则、模型,融合逻辑学和图论算法对已有知识做进一步的融合整理后进而获取新知识。

  • 知识应用子系统:用于提高资源优化配置效率,对接并帮助企业内的办公系统、生产系统、协作系统等,以实现科学决策、精准决策、高效决策。较为普遍的应用需求包括可视化、检索、推荐、问答,行业特性相关的应用多为利用图模式匹配算法做团伙发现、关联推荐、关系推理等。


在没有知识中台的情况下,企业仍然可以管理知识、利用数据解决业务问题,就像在没有数据仓库的情况下,企业也能做数据管理一样。但有了知识中台之后,可以让知识体系更清晰,知识复用更高效。中关村科金知识中台技术解决方案成功克服了以下几项关键技术挑战,并为企业客户带来相应的增值:

  • 通过知识表示技术,使知识更加可解释,使其同时表示为人类语言和机器语言,既具有一定的业务可解释性,便于业务人员理解和传播,又可以无歧义地在计算机上执行,便于自动化地做知识关联和输出预测建议。

  • 通过知识抽取技术,建立企业内部全局统一视图,为企业内不同职能部门提供全局视角,使各自的语言体系得以对齐,提升跨部门的协作效率,便于成果整合和复用。

  • 通过知识增强技术,将节点的网络结构信息、上下位等关系信息、节点本身的属性信息等融入到节点的表示方法里,提升下游 AI 任务(如检索、推荐、问答、规划、预测等)的准确度。

  • 通过人机交互技术,促进知识创新,让机器及时发现相似性知识,并主动推送给相关人员,以人在回路(Human-in-the-loop)的方式产生新类比、新启发,促进新一轮的知识创造。

总结展望:知识中台是企业面对未来市场竞争的战略布局


随着人工智能、大数据技术的普及,很多行业感受到来自技术的倒逼压力,数字化转型已然成为不可逆转的发展趋势。数字化转型的首要步骤是数据在线,随后是智能化应用。对话式 AI 是营、销、服等多个场景中均需应用的技术,其背后的支撑是客户洞察和领域知识。


领域知识中台的建设不单是为了让各种对话场景更加智能,还可以支持企业内信息检索、员工培训、产品研发等场景,是知识密集型企业在数字化转型之路上必经的一站。


现阶段知识中台的建设仍面临很多技术挑战,如:

  • 构建成本问题:对于结构化数据需要复杂的数据治理工作,对于非结构数据需要大量的标注工作。

  • 推理准确度问题:知识计算为搜索、推荐等上游任务的准确度带来提升,但其独特的应用价值在于具有可解释性的推理,需要在领域知识不完备且数据总量大的情况下进行快速准确的推理。

  • 形式化表示问题:一切知识应用问题归根结底都在于知识表示,已有技术成果多集中在事实知识上,对于原理知识和技能知识的研究仍缺乏深入的数学和认知理论基础,现有的一些实践技术路线难以统一。

  • 多模态问题:随着5G物联网和感知技术的普及,企业非结构化数据的占比会越来越高,从语音、图像、视频的多模态数据中联合抽取知识的需求会越来越多,通过终端设备以多模态交互、人机协同的方式辅助实时决策的需求对技术和产品设计而言将是双重挑战。


放眼未来,各类知识密集型行业均需建立自己的行业大脑,行业大脑将会成为企业在市场竞争中的战略控制点,由企业自身运营维护,知识作为企业资产不断地沉淀和更新。知识中台将会成为企业数字化转型中打通底层数据和上层应用的关键组件,帮助企业解决知识难留存、难挖掘、难管理、难传承的问题,为企业在新经济环境下的市场竞争做战略布局。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-12-02 14:113950

评论

发布
暂无评论
发现更多内容

数据同步:教你如何实时把数据从 MySQL 同步到 OceanBase

OceanBase 数据库

数据库 开源 oceanbase 分布式,

你不知道的开源分布式存储系统 Alluxio 源码完整解析(下篇)

腾源会

大数据 开源

数据库连接池Demo(1)单线程初步

Java 数据库 连接池

在线假单词随机生成器

入门小站

工具

赢在2022,面试官常问的软件测试面试题总结

六十七点五

软件测试 面试题 自动化测试 经验总结 测试工程师

科技热点周刊|马斯克套现 440 亿;苹果推出数字身份证;Meta 与微软合作;华为捐赠欧拉

青云技术社区

云计算 物联网

Golang Gin 框架入门介绍(二)

liuzhen007

11月日更

linux下清理系统缓存并释放内存

入门小站

Linux

架构设计

AHUI

「架构实战营」

新能源汽车补贴没了,行业还能快速发展吗?

石云升

学习笔记 新能源汽车 11月日更

这一次,Google 终于对 Web 自动化下手了!

星安果

chrome 自动化

你不知道的开源分布式存储系统 Alluxio 源码完整解析(上篇)

腾源会

大数据 开源 数据湖

【算法技术专题】如何用Java实现一致性 hash 算法( consistent hashing )(上)

洛神灬殇

算法 一致性hash 11月日更

验证码

卢卡多多

图片验证码 11月日更

Ubuntu系统下《汇编语言》环境配置

codists

汇编语言

一文告诉你 K8s PR (Pull Request) 怎样才能被 merge?

腾源会

k8s

进击的Java(七)

ES_her0

11月日更

监管打压加码!虚拟货币挖矿再遭围堵 “漏网之鱼”当休

CECBC

一起听、一起看、一起唱掀起Z世代青年社交浪潮

声网

人工智能 算法 音视频

识别AI换脸!百度这项技术夺冠了!

百度大脑

人工智能 百度

中央银行、不平等和新技术:使用分布式账本、可编程合约和密码学的蓝图

CECBC

请问软件测试和渗透测试的区别是什么?

喀拉峻

网络安全 渗透测试

在华为云专属月,找到开启互联网第二增长曲线的一把钥匙

脑极体

【LeetCode】重新排序得到 2 的幂Java题解

Albert

算法 LeetCode 11月日更

CNCF 沙箱再添“新将”!云原生边缘容器开源项目 SuperEdge 正式入选

腾源会

开源 容器 云原生 cncf

多模态内容理解算法框架项目 Lichee 正式开源,为微服务开源社区贡献力量

腾源会

开源

一个基于PoS共识算法的区块链案例

Regan Yue

区块链 共识算法 11月日更 细讲区块链

你现在可以在元宇宙里 “打工”了!

CECBC

15 K8S之容器安全上下文

穿过生命散发芬芳

k8s 11月日更

范学雷的专栏《深入剖析 Java 新特性》

IT蜗壳-Tango

11月日更

Android C++系列:JNI操作Bitmap

轻口味

c++ android jni 11月日更

对话式AI系列:领域知识中台建设方法论与实践_AI&大模型_InfoQ精选文章