80% 的企业采用半自动化构建知识图谱,全自动化什么时候实现?

2020 年 4 月 10 日

80% 的企业采用半自动化构建知识图谱,全自动化什么时候实现?

AI 技术的发展和大数据时代的到来令知识图谱的自动化构建成为可能,尽管现阶段还面临着一些挑战,但已有不少企业在积极探索和尝试自动化构建技术。近日,AI 前线采访了来自明略科技和国双数据科学团队多位专家,他们分享了实现大规模自动化知识图谱建设的技术与应用实践。


人工构建还是机器构建?


知识图谱是新一代知识工程技术的代表,传统的知识工程重度依赖人工干预,知识建模和获取主要从领域专家处获取专业知识。自 2012 年谷歌提出"知识图谱"的概念并运用到搜索引擎后,知识图谱的构建技术与应用引起了学术界和工业界的广泛关注。


最近几年,随着 AI 技术的发展和大数据时代的到来,知识图谱的自动化构建成为可能,从构建技术看,它经历了由人工构建到群体智慧构建到自动获取、构建的过程。自动化构建知识图谱的特点是面向互联网的大规模、开放、异构环境,利用机器学习和信息抽取技术自动获取互联网上的信息。


明略科技科学院知识工程实验室负责人张杰在接受 AI 前线采访时表示,对企业而言,知识图谱的构建,如果自动化程度和准确度都能很高,具有两方面意义:


为企业拓展数据规模增加数据连接。知识图谱可以连接内部结构化数据、物联网数据、外部非结构化数据,进而可能成为下一代企业管理数据的主流技术路线;


另一方面,提升数据的挖掘深度和利用效率。以往多数企业做数据挖掘项目,都仅仅对静态数据做浅层加工得到标签,然后再训练模型。以图结构为主的关系数据、以时空序列为主的动态数据并没有得到充分利用。


人工构建和自动化构建各有优缺点。人工构建图谱耗时耗力,构建出的图谱规模较小。知识图谱发挥作用需要依靠规模效应,如果单纯依靠人工构建,容易陷入此前专家系统的瓶颈,导致实用能力有限,无法发展起来。而自动化构建处理速度快,可以减少人工、时间、成本,更适应大数据时代的应用要求。


不过以目前的技术水平,自动化构建的准确率还低于人工,一般情况下减少人工会导致准确性下降。在一些结构化不强,需要人工理解才能判断的场景,如果缺少人工参与,将会影响知识图谱的质量。


在知识图谱构建的主流技术路线中,人工对于其中几个环节仍不可或缺。如在从结构化、半结构化数据映射为知识图谱的工作中,主要工作量在于工程师梳理映射逻辑和开发映射规则,然后机器去批量化的自动执行;在从非结构化文本中自动抽取本体的工作中,自动化程度较高,在标注训练数据集上,准确度往往难以保证商用,仍需人工校验。


国双数据科学团队负责人表示,现阶段要兼顾效率和精度,最合理的方式是半自动化结合人工。 目前业内构建知识图谱很少见纯人工和全自动方法,采用的主流方式是半自动结合人工方式,约占 80%以上。


半自动结合人工方式操作的流程是,前期借助人工标注适量数据,训练模型自动化抽取,最后由人工进行审核或验证。


目前商业化的知识图谱,均有部分自动化构建能力,实现动辄千万甚至上亿数据规模的知识图谱。一般手工部分出现在知识图谱构建早期(冷启动),随着图谱规模的扩大,依据知识推理和机器学习,自动化程度会逐渐提升。后期的知识图谱自动更新主要集中在动态更新实体数据、发现新的实体,从新入库的各类原始数据中获取新的知识等环节。


现阶段,一定程度的人工参与加机器自动化的方式可能在相当长一段时间内会是主流。图谱结构的定义依赖于具体应用场景和要解决的问题,需要人来定义。有些场景对数据质量要求极高,如公共安全、金融、医疗等领域做知识融合要通过人工校验来最大程度保证可靠性。


张杰表示,如果一些场景的知识图谱可以满足商用要求( TO C 场景下准确率要到 95%,TO B 场景下要更高),就可以全面交给机器来进行自动化构建。他认为,To C 场景下的检索、推荐,应该会很快实现全面自动化,而 To B 场景下的推理、决策,通往全面自动化还要很久。


国双认为,在一些垂直的有限领域如司法等可能将在未来 2~3 年实现可自动更新实体数据的知识图谱体系。


如何实现大规模自动化的知识图谱构建


知识图谱自动化构建流程与技术


尽管实现全面自动化构建知识图谱还有很长的一段路要走,但已有不少企业在积极探索降低人工参与度,提升自动化构建水平,如明略科技推出了人类智能、机器智能、组织智能三位一体的 HAO 智能系统,国双通过自研的知识抽取算法设计平台完成知识抽取流程设计。


这里以国双为例,说明知识图谱自动化构建的方法。


自动化构建流程主要包括本体创建 –> 数据标注 –> 模型训练 –> 知识抽取 –> 知识融合 –> 知识推理 –> 知识更新等环节。具体来看:


数据标注和模型训练环节,通过知识抽取算法设计平台完成;


在知识抽取环节,以相对复杂的非结构化知识抽取为例,国双运用的技术是将标注数据清洗扩增,使用基于 Encoder 和 Decoder 的端到端三元组联合抽取模型进行知识抽取。针对没有标注数据的冷启动知识抽取需求,构建了一套利用依存句法分析算法实现无监督情况下抽取三元组的系统。


在知识融合环节,国双构建了一套结合传统字符串相似度和图卷积网络的融合系统,将知识图谱经过 GCN 编码后得到表示向量,通过计算表示向量相似度和实体的字符串相似度,并结合 Sieve 模式高效筛选出融合结果。


在知识推理环节,在基于规则和基于算法的知识推理方面做了一些尝试,例如通过业务本体框架中的相关约束来做相关推理。


在知识更新环节,使用知识抽取实验平台把新的增量数据去重新训练模型,且依靠知识抽取算法 API 来实现自动的知识更新。


张杰表示,知识图谱自动构建的过程中主要运用到了自然语言处理、小样本训练、领域迁移等关键的 AI 技术。自动化构建知识图谱有四大技术重点:


如何自动化的从结构化数据库映射为知识图谱并做知识融合;如何通过小样本学习和领域知识迁移的技术减少人工标注成本;如何从非结构化文本中做篇章级的事件抽取和多事件关联;基于深度学习的知识表示在各个构建的环节的应用。


针对结构化和半结构化数据,明略科技提出了 HAO profiling 技术,对来自不同数据源的结构化/半结构化数据进行汇聚、组织,试图理解数据,解决数据冗余、冲突等问题,对数据进行标准化、连接,形成数据的知识图谱,进行可视化展示,并以统一视图服务查询、计算等应用需要。


针对非结构化数据,明略科技设计、开发了一套算法工具包:HAO 图谱。HAO 图谱包括关系抽取、事件抽取、实体对齐、网络结构嵌入式表示、时空序列数据表示、图谱摘要、基于图谱的短文本生成等算法。


构建挑战


知识图谱在构建过程中面临着诸多挑战。


张杰指出,自动化构建主要的技术挑战点有三项:信息丢失、信息冗余、信息重叠。信息丢失是指应该抽取出来的信息没有抽全。信息冗余指在输入文本中不存在但在背景知识中存在的额外概念和关系。信息重叠是指能否将原文中距离跨度较大的属性归结到正确的实体上,并对动态变化的属性进行适当存储。


此外,知识图谱构建成本高昂,小样本的抽取和构建问题,也是业界公认的难题。


对于小样本的抽取问题,在国双看来,从小样本中进行抽取,很难采用直接数据驱动的方式,一般需要借助知识来降低对数据的依赖。知识辅助的方式有两种,一种是人工将知识写入系统,即规则编码等方式;另一种是机器进行知识推理,也就是基于背景知识进行概率推理,这个方法在消歧或实体链接、关系预测上经常使用。


人工构建一个知识图谱的成本是非常高的,降低成本从某种程度上可以说是构建过程的核心和关键。明略科技和国双分享了自己的解决方案:


明略科技认为,降成本需要做到行业经验复用和技术工具复用。为此,在行业经验复用方面,明略科技成立了行业咨询团队,形成了面向行业的最佳实践和成功案例,且投入到国家标准、行业标准、联盟标准的制定中。


技术工具复用方面,明略科技将技术体系(行业交付团队、技术部、科学院)的技术能力全集团范围内共享打通,科学院的成果会输出到技术部,技术部形成公司级的产品组件,行业交付团队初次面对新行业时会做些定制化开发,再次复用后会凝练为产品并回流到技术部。


国双认为,构建知识图谱的成本需要考虑三大因素:人,模型,数据。首先由人来创建正确有效的本体,标注少量数据;利用数据增强等方式来训练机器学习模型,再利用模型处理有标注和无标注数据;最后人工查验,在保证标注精度的情况下最大程度减少人工干预,最终实现控制成本、做大规模,同时保证知识图谱的质量。使用知识抽取算法设计平台,可以通过平台化的方式设计知识抽取流程,在设计过程中流程化地预估各个方案的预期结果和成本,最终通过科学决策选择性价比最好的方案。


应用实践


目前自动化构建的知识图谱主要运用在智能问答、智能推荐、语义搜索、网络行为动态分析等场景中。由于需要大量领域专家的干预,很多特定领域的知识图谱自动化构建的进展有些缓慢,尤其在一些小规模、应用场景复杂、专家知识密集的场景。


但知识图谱需要运用到广阔的业务场景里才能够发挥出它的真正价值。


据了解,明略科技一直在营销、公共安全、数字城市、工业、金融等领域探索自动化构建行业知识图谱。明略科技的 HAO 智能系统在以人为本、人机协同的基础上,加入了面向行业应用、具体细分领域的 Organizational Intelligence。


该系统中的结构化数据通用治理平台 CONA(关联所有数据),可通过设置数据转换规则,结合数据多值溯源和融合策略,自动完成标准化对标,实现数据治理自动化,这能够大大提高行业知识图谱构建效率。以公共安全领域实际数据治理为例,业务系统中近千张表,传统方法和工具做图谱构建可能需要半年以上的时间,而 CONA 能够缩短到 2 周。


张杰介绍,在协同推理方面,明略科技采用专家规则加数据驱动的方式形成了行业因果图谱,以便于对未来事件的走向做预测。这一技术今年有望应用在复杂度较高且客单价较高的行业中。


国双从 2016 年开始在司法领域构建知识图谱,并逐步扩展到了营销领域和工业领域。其中,司法知识图谱是目前做到技术成熟度最高和规模最大的。


在构建这个知识图谱的过程中,由于知识来自于文书库、法律法规库和司法专业知识库等多个来源,存在知识重复和指代不明等问题,为了做到自动化、高质量地构建知识图谱,国双针对这些问题运用层次聚类和基于密度的聚类方法,实现了实体间的对齐和内部消歧,消歧的正确率达到 98%。


“知识图谱的构建是一个复杂的系统工程,不可能通过某一项技术适配所有场景。综合来看,解决这个问题需要以技术为基础,构建工具体系,然后面向场景进行系统设计”,国双数据科学团队负责人表示。


结束语


通过以上专家的分析,可以预见的是,大规模知识图谱的自动化、高质量构建将成为重要的发展趋势。


张杰认为,要实现上述目标,至少需要三方面的能力:


算法把控能力:知道各类算法的适用场景和算法所能达到的上限大致在哪里,不盲从所谓的主流,不迷信所谓的前沿,实际场景下有效的系统往往是多种技术方案共同作用的结果;


跨层并行能力:从原数据到图谱应用是个很长的链条,并不是所有环节在处理大规模数据时都能够独立的做并行化处理,如何跨层做联合优化,需要架构的设计者打通技术栈;


业务理解能力:技术人员要对所属行业和所面临的场景需求要有很好的理解,才能在投入与产出之间做出良好的平衡。


嘉宾介绍 :


张杰,明略科技科学院知识工程实验室负责人,天津大学本科、硕土、博士毕业,研究方向为机器学习、自然语言处理、知识工程,发表学术论文十余篇,发明专利八十余项,曾就职于华为诺亚方舟实验室,后作为联合创始人创办金融科技公司并任 CTO,曾主持搭建百科知识问答、对话机器人、推荐引擎、决策引擎、大数据风控等多项系统,累计创造商业价值数亿元。


国双数据科学团队,经历了五年多的发展目前成员共计 30 多人。所有成员均来自国内外一流大学,包括数据科学家、机器学习建模专家、计算机视觉专家、自然语言处理专家、语音工程专家等。目前数据科学应用主要服务能源、汽车、金融、快消、政府、司法等行业。


2020 年 4 月 10 日 09:582715
用户头像
刘燕 InfoQ记者

发布了 474 篇内容, 共 147.2 次阅读, 收获喜欢 833 次。

关注

评论

发布
暂无评论
发现更多内容

anyRTC实时音视频-社交娱乐解决方案

anyRTC开发者

ios android 音视频 WebRTC RTC

如何快速打造一款钉钉 Go sdk

Ceelog

go golang 钉钉 企业微信

《大数据算法》.pdf

田维常

算法

量化交易APP系统软件开发(现成)

开發I852946OIIO

系统开发

码了2000多行代码就是为了讲清楚TLS握手流程(续)

新世界杂货铺

golang https

智慧社区系统开发方案,智慧平安小区综合管理系统建设

WX13823153201

智慧社区系统开发

DolphinDB与MongoDB在时序数据上的对比测试

DolphinDB

mongodb 分布式系统 时序数据库 DolphinDB 数据库开发

【经验分享】RTC技术系列之音频编解码

邵帅

SPI 在 Dubbo中 的应用

vivo互联网技术

Java jdk dubbo spi

EZYTRX波场智能合约APP系统软件开发

开發I852946OIIO

系统开发

一文带你彻底了解大数据处理引擎Flink内存管理

华为云开发者社区

大数据 数据 处理

盘点2020 | 30岁了,我终于入门编程了

希望

盘点2020

Prometheus TSDB(Part 2):预写日志(WAL)和检查点

_why先生

云原生 Prometheus tsdb 可观察性

盘点2020 | 疫情下的思考和学习

soolaugust

盘点2020

产品策略闭环是个什么环?

万事ONES

项目管理 团队协作 需求管理 需求分析 产品策略

IDEA 文档插件 DocView 版本更新:修改 UI 并支持 IDEA 2020.3 !

程序员小航

idea插件 IntelliJ IDEA 文档生成

架构师训练营W09作业

Geek_f06ede

Canvas入门实战之用javascript面向对象实现一个图形验证码

徐小夕

Java 前端 canvas

DeFi(去)中心化DAPP系统软件开发

开發I852946OIIO

系统开发

LeetCode题解:127. 单词接龙,BFS+统计单词变化次数,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

答了Mybatis这个问题后,面试官叫我回去等通知……

田维常

mybatis

在线医疗的发展和优势

anyRTC开发者

android 音视频 WebRTC RTC 医疗方案

硬肝到秃头!Alibaba强推并发编程笔记我跪了,真的学到好多东西!

Java架构追梦

Java 学习 架构 面试 并发编程

从 JMM 透析 volatile 与 synchronized 原理

码哥字节

volatile JVM JMM Java 25 周年 synchronized

【小菜学网络】数据链路层概述

fasionchan

网络编程 计算机网络 网络协议 TCP/IP

硬核编程:30天=一个网站+一份周刊

老魚

程序员 建站 web全栈

腾讯高工强烈推荐的“Netty速成手册”原理+应用+调优,带你将知识点一网打尽

比伯

Java 编程 程序员 架构 Netty

智慧警务可视化平台开发,重点人员管控系统搭建

t13823115967

智慧公安 智慧警务系统开发

dubbogo 3.0:牵手 gRPC 走向云原生时代

阿里巴巴云原生

go gRPC 云原生 中间件 dubbo-go

通过Postman和coding.net发布API

太极程序员

Postman API

智慧城市建设,社区智能化系统搭建解决方案

t13823115967

智慧城市 平安小区

80% 的企业采用半自动化构建知识图谱,全自动化什么时候实现?-InfoQ