AI前线(2020年11月)

AI前线(2020年11月)

发布于:2020-11-30 08:00
本期推荐内容:中台的邪,为什么CXO们都信了?爱奇艺技术总监朱俊敏:奇观识别方案从云迁移到端的探索和实践;被嫌弃的35岁程序员。
下载此书

卷首语:知识图谱构建的研究已走入下半场,但大规模落地应用仍需时间

作者 | 李冬梅


采访嘉宾 | 唐杰


知识图谱是近年来人工智能技术蓬勃发展的核心驱动力之一,已广泛应用在金融、电商、医疗、政务等众多领域,经过短短几年的发展,热度依旧不减。未来,知识图谱将会是怎样的发展趋势?


知识图谱的下一步是认知图谱。


深度学习时代的知识图谱拥有大量的实体和关系,然而大量不同的关系上很难定义逻辑规则,在知识图谱上“推理”也转入黑盒模型预测的范式。Bordes 等人的知识库结构嵌入和 Socher 等人的 Neural Tensor Network(NTN)率先将神经网络引入 知识图谱 的研究,特别是后者将知识图谱中实体和关系的单词嵌入的平均作为该节点的表示,训练神经网络判断(头实体、关系、尾实体)的三元组是否为真,在知识图谱补全(推理)任务中取得了很好的效果。


知识图谱的一个重要特点就是可解释性和发现新知识的能力,这是目前深度学习方法很难做到的。知识图谱把领域知识或常识整理成结构化的形式,然后在此基础上进行推理,类似于人脑的功能。比如评审专家的推荐,使用深度学习的方法进行训练,专家的查找过程是个黑盒操作,无法追溯推荐的理由。使用知识图谱建立的高精度的专家画像,及专家关系网络能够为专家推荐提供可解释性,比如评审专家的学科相似度、评审人和专家的关系等等。


但知识图谱同样存在不足。知识图谱的缺点本质上都是“二元一阶谓词逻辑”作为知识表示的本身缺陷带来的。知识表示长久以来研究者孜孜不倦追寻探索的话题,完全依靠(头实体、关系、尾实体)这样的命题,尽管能表示大部分简单事件或实体属性,对于复杂知识却束手无策。


近年得益于自然语言处理的极大进步,BERT 等预训练模型带来的文本理解和检索能力使得我们可以在原始文本上进行理解和推理,例如 Chen 等人的 DrQA 就是使用神经网络直接从文本中抽取问题答案,掀起开放领域问题的新热潮。另一方面,我们必须保持知识图谱的图结构带来的可解释性和精准稳定的推理能力。例如,知识图谱很难构建百分百正确的、超大规模的知识图谱,因此,针对这些不足,认知图谱应运而生。


本质上,认知图谱的改进思路是减少图谱构建时的信息损失,将信息处理压力转移给检索和自然语言理解算法,同时保留图结构进行可解释关系推理。认知图谱主要有三方面创新,分别对应人类认知智能的三个方面:


1.(长期记忆)直接存储带索引的文本数据,使用信息检索算法代替知识图谱的显式边来访问相关知识;


2.(系统一推理)图谱依据查询动态、多步构建,实体节点通过相关实体识别模型产生;


3.(系统二推理)图中节点产生的同时拥有上下文信息的隐表示,可通过图神经网络等模型进行可解释的关系推理。


事实上,认知图谱正是由人类认知过程所启发,“快速将注意力定位到相关实体”和“分析句子语意进行推断”是两种不同的思维过程。在认知学里,著名的“双过程理论(dual process theory)”认为,人的认知分为两个系统,系统一(System 1)是基于直觉的、无知觉的思考系统,其运作依赖于经验和关联;而系统二(System 2)则是人类特有的逻辑推理能力,此系统利用工作记忆(working memory)中的知识进行慢速但是可靠的逻辑推理,系统二是显式的,需要意识控制的,是人类高级智能的体现。


认知图谱首先由清华大学和阿里巴巴在 2018 年的中国计算机大会上提出,后来 Ding 等人将其应用于多跳开领域阅读理解问答中。传统方法中,开领域问答往往依靠大规模的知识图谱,而阅读理解问答一般面向单段,此时阅读理解的 NLP 模型,例如 BERT,可以直接处理。然而,这样的方法在多跳(推理)问答中存在“短视检索”的问题,即在几跳(几步推理)的文本和问题回答中,真正的答案可能和问题相关性较低,很难被直接检索到,这导致了效果不佳。认知图谱问答提出一种新颖的迭代 框架:算法使用两个系统来维护一张认知图谱,系统一在文本中抽取与问题相关的实体名称并扩展节点和汇总语义向量,系统二利用图神经网络在认知图谱上进行推理计算。


基于认知图谱技术,北京智谱华章科技有限公司(以下简称:智谱.AI)还研发了支持知识推理的科技情报挖掘系统。团队将认知图谱技术作为知识图谱的补齐任务,针对由现实世界中的实体和关系组成的知识图谱,提出了 CogKR 框架,基于认知科学中的双过程理论,通过构建认知图来完成在已知头实体和关系类型情况下推理尾实体的任务。比起基于嵌入的方法,该方法多跳推理的能力更强,并且具有更好的可解释性。比起过去的基于路径的多跳推理方法,该方法能够利用更加复杂的子图结构进行推理,而不会局限在单条路径,因此有更好的准确性。


知识图谱的构建已走到下半场


从知识图谱的构建技术看,它经历了由人工构建到群体智慧构建到自动获取、构建的过程。人工构建是早期知识图谱构建的主要方法,手工构建的优点首先是准确率较高,其次是人类便于理解,缺点是效率低、成本高,构建出的图谱规模有限。


自动或半自动的构建方法,可以不同程度的提高构建效率,降低成本,目前很多方法已经能够实现亿级知识图谱的构建,这也得益于结构化和半结构化数据的积累。半自动化的知识图谱构建方法在将来一段时间内仍然会是主流,尤其对医疗、安全和金融等领域,数据质量要求较高,需要通过人工审核保证准确性。


在唐杰教授看来,认为知识图谱的构建研究已经走到下半场,知识图谱的应用还没有走到下半场,比如知识推理。目前已经有相当规模的工业级知识图谱已经落地,尤其是在金融、电商、医疗、社交、文娱、教育等领域。比如企查查、天眼查等企业知识图谱、Facebook、腾讯等社交知识图谱、美团的美食知识图谱等。


智谱.AI 也在科技情报领域构建了亿级科技知识图谱,包括技术、学者、论文、机构等实体、关系及属性信息,通过网络挖掘算法实现专家人才发现、技术洞察与趋势分析等应用。此外,公司还和阿里合作构建了千亿级的电商知识图谱,目前也已经应用于手机淘宝的推荐,将知识图谱自动构建准确率从 55% 提升到 88%,全面支撑手机淘宝搜索和推荐。

目录

生态评论


中台的邪,为什么 CXO 们都信了?


重磅访谈


爱奇艺技术总监朱俊敏:奇观识别方案从云迁移到端的探索和实践


落地实践


端上智能在快手上下滑推荐实现 APP 时长+1%的应用实践


推荐阅读


留给快手的时间不多了


被嫌弃的 35 岁程序员


精选论文导读


效果不降效率提升 11.4 倍,小米 AI 实验室提出针对中文命名实体识别的多孔词格编码器


评论

发布
暂无评论