知识图谱的下一步:知识指导的预训练模型和图神经网络

阅读数:1415 2019 年 12 月 12 日 12:04

知识图谱的下一步:知识指导的预训练模型和图神经网络

知识图谱作为对数据进行结构化组织与体系化管理的核心技术之一,不仅改变了互联网行业,也给信息与通信行业带来了深刻变革。随着 5G 与 AR 技术的兴起,知识图谱的发展出现了很多新的特点。近日,InfoQ 记者在 AICon 全球人工智能与机器学习大会 北京 2019 现场采访了华为中央软件院知识图谱首席技术专家贾岩涛,他与我们分享了知识图谱在信息通信行业的研究和应用重点,以及从非互联网公司视角看到的知识图谱未来的可能性。以下为采访问答实录。

InfoQ:贾岩涛老师您好,非常高兴这次能够在 AICon 现场采访到您。今天主要想跟您聊一聊知识图谱领域的现状和进展。首先能不能请您先介绍一下,您是什么时候开始进入知识图谱领域做相关研究的?

贾岩涛:我个人跟图还是很有渊源的,我读博时的研究方向就是图论相关的,博士毕业之后我在 2012 年加入中科院计算所工作了 5 年,一直在做图谱相关的研究工作。2011 年的时候,我们的实验室提了 OpenIO 的概念(Open Intelligent Ontology,开放智能本体),与后来 Google 提出的知识图谱概念很像。到了 2012 年 Google 提出了知识图谱的概念后,一下引起了工业界的巨大关注,后来我们发现,其实我们还算是一个先行者,在这之前就做了一些研究工作。2012 到 2017 年,我一直在做一些研究与工程相关的东西。因为知识图谱本身并不是一个纯研究问题,很多时候,图谱的效果怎样或者构建图谱的方法是不是有效,还要经得起实践的检验。所以知识图谱的定位应该是在研究与工程实践的中间地带,二者都要兼顾。首先知识图谱确实需要理论支撑,特别是当前自然语言处理的研究还并不成熟,工业界实践追求的是规模要大、性能要达标,用户体验要好,这几个需求的平衡很难把握。而且,工业界普遍会与实际的应用场景距离更近,且坐拥海量真实的数据。在知识图谱这个方向上,我虽然专注了十几年时间,但对此依然充满热情,相信还有很多待研究与待落地的东西。

InfoQ:您觉得在学术界做知识图谱的研究,和在工业界做应用落地,有什么特别不一样的地方吗?

贾岩涛:学术界,通常有一个公开数据集供大家实测,并不断地提升在这个数据集上的效果。但是工业界很多数据集并不像学术界的评测数据那样完美。工业界的数据集经常会暴露出更多问题,比如说同一个类型的实体很少,或者同一个 use case 下数据量不够,比如根因分析、故障定位领域,不像互联网的某些话题在网页上可以找到大量数据 。怎么针对这类真实的数据集做知识图谱的构建,怎么对数据进行大量的清洗工作,工业界更多在解决这些问题。总体来看,工业界更多是从应用和使用价值出发,自顶向下展开研发工作,通常只能覆盖 30% 左右的问题;而学术界是从理论和科学问题出发,自底向上展开研究,可能研究 60% 左右的问题;中间还存在 10% 的 Gap,这 10% 其实需要学术界与工业界联合起来一起解决。知识图谱领域近年来受到了工业界的广泛关注,并辅以持续的投入,而学术界也有很多研究人员在从事相关的研究工作,例如国内外很多高校都开设了类似的研究方向,这样可以从两个层面更好的推动这个方向的发展。

InfoQ:华为是什么时候开始投入知识图谱研究的?也是在 2012 年以后吗?

贾岩涛:对,工业界包括华为在内的很多公司,拥有大量数据,当出现一些历史上解决不了的场景与新问题时,就会想尝试一些新的解决手段。知识图谱在 2012 年推出以后,从 13-14 年开始,国内各个高校与公司都开始进行初步的探索。只不过大家场景不太一样,互联网公司可能更关注搜索上的应用,如何帮助消费者提升互联网搜索体验,而像华为这样的信息与通讯厂商可能会关注运营商领域、消费者领域(尤其是手机、可穿戴智能设备等)等领域如何应用知识图谱。公司内部爆发对图谱的广泛热情,可能是从去年开始。我们知道,中文信息学会举办的知识图谱大会 CCKS 也是从去年开始达到了七八百人这样的参会者规模。公司各产品线越来越认识到知识图谱的重要性,包括底层数据治理,上层应用设计,特别是一些原子化的设计,都在尝试使用知识图谱相关的技术。

华为做知识图谱有两种思路,一种是比较短平快的,基于解决用户实际问题的考虑来选择构建哪些知识图谱;另一个思路是偏长期规划的,我们内部也在想图谱本身是否能做一个基础设施(知识中台),通过图谱来驱动资料的编写、数据的规范化等。这个可能是一个更长期的过程,但是可以提高产品线乃至整个行业的知识管理和应用的水平。当大家都按照一定的 schema 约束与规范,来书写知识以后,行业就会变得更加规范,资料本身的规范化为将来的结构化带来了巨大的便利。虽然这个过程耗时较久,但是从长期意义上讲是战略性的。所以,不仅构建知识图谱、做知识推理,尝试用图谱作为一个中间的技术手段来驱动数据的治理、数据资料的编写,也是业界,特别是一些特定领域企业可以采纳的一个方案。

InfoQ:结合您的经验和您这些年在业内看到的情况,您认为当前知识图谱相关技术处于什么样的发展阶段了?它是否已经足够成熟?

贾岩涛:现在逐渐开始有一些落地的场景,但实际上在研究层面还有大量问题需要攻克。我们在前几个月系统性地对近几年的国际顶级会议做了分析,发现每个阶段都有各自的问题。比如在构建层面,近几年大家比较关注的策略,包括弱监督、远程监督、自监督的抽取方案,还有小样本的抽取。推理层面集中在基于图神经网络、基于图表示学习的研究,比如今年的神经网络顶级会议 NeurIPS 上有一个关于图神经网络的 Workshop,里面有 92 篇论文都是跟图神经网络和图表示学习相关的。图表示学习是近几年很火的一个方向,现在也逐渐具备落地的趋势了。在知识建模的层面,大家正在不断探索,比如事件的建模、动态知识的建模,近几年也有一些比较亮眼的工作。应用层面,各行各业催生了不少新的知识图谱应用,经典的三大应用就是搜索、问答和推荐,现在像智能运维、设备自动化部署后的解决方案讲解等,都是很有意思的应用。

InfoQ:图表示学习和图神经网络今年确实挺火的,您怎么看待这两个技术今年突然一下就火了?

贾岩涛:这是因为刚好到了这样的一个阶段。就有点像有人在问,为什么知识图谱近几年越来越火?

在 Gartner 的技术曲线中,知识图谱这几年一直处于爬升期,Gartner 预测知识图谱再过 5 到 10 年才会真正地有一个爆发的落地。我们内部分析认为,首先近几年人工智能火了,其中感知层的部分,比如图像识别、视频理解等,现在已经有大量的创业公司尝试落地,包括安防领域的人脸识别,但在认知层方面,特别是自然语言理解,以及利用知识让机器具备推理能力等方面,一直是一个空白。但人工智能火了以后,特别是阿尔法狗的出现,让人们意识到了人工智能在认知层的进步。这些都是近几年知识图谱越来越火的重要因素。其次,数据本身越来越丰富,知识图谱强调的规模大、实体数量多的特性有了数据基础,这几个因素共同促进了知识图谱成为热点话题。

InfoQ:您觉得图神经网络的出现可以解决知识图谱的什么问题?

贾岩涛:我认为图神经网络是另外一个空间,因为图是一种符号表示,图神经网络实际上是想把图的符号化表示,转到向量空间或者向量的语义空间里面去做一些数值计算。这个计算最大的好处是,图本身是符号,两个点之间直接运算存在一定的困难,特别是两个节点之间没有直接的关联关系的时候,但是转化成向量以后,任意两个节点之间都是可以做计算的。另外,图有一层邻居、两层邻居,以及诸如结构等价性等特征,如何把图的特性更好地表达出来,图神经网络是方式之一,因为它可以把局部的特征与全局的特征,在一个优化函数里面更好地度量出来。这样,虽然每个节点是一个向量,但是这个向量是通过它的局部以及外围,甚至是更远的一些信息传导来的,它的编码能力会更强,可以直接用于计算,便于上层应用。

当然我们也要客观地看待图神经网络。特别是它到底能够编码多少信息?图本身关联关系比较复杂,有多种类型的节点和多种类型的边,本身的结构与内容信息在做完转换以后可能会存在信息丢失的情况。同时,做完转换以后,对于上层应用的可解释性,当前在一定程度上也是缺乏的。

InfoQ:回顾过去这一年,知识图谱在研究和落地这两个方面,有什么值得一提的进展吗?

贾岩涛:在知识推理层面,图表示学习和图神经网络的研究与应用是重要的进展之一。除了建模、构建、推理以外,还有一点值得一提的是应用层面,像自然语言领域,近几年预训练模型的兴起,使得知识指导的自然语言理解再次成为热点。同时,自然语言处理中与常识相关的问答有待于基于知识进一步的提升效果。预训练模型本身能够反过来去驱动知识的应用,这是从去年至今大家都在争相布局的一个点。这两个点是近期知识图谱研究的热点,从工业界角度来讲,搜索、问答和推荐都在逐步应用,但是现在还有智能决策、情报分析、BI 等的应用场景值得进一步关注。例如故障定位、智能运维,因为其决策的链条更长,需要更多的专家经验,难度也更大。

InfoQ:还是看过去这一年,知识图谱领域是否有哪些方面做得不太好或者相对来说进展缓慢的?

贾岩涛:通过我们近几年的调研发现,过程类图谱的构建还没有太多成型的方法。国外有一些研究机构从阅读理解的角度去研究这类问题,但实际上,是不是要把它拆解到知识图谱的实体粒度,现在研究的人很少。这部分现在依然是瓶颈,尤其是对于大量设备的操作、流程和规范这类知识的建模与抽取,还没有太多的研究与关注。还有像小样本的抽取和构建问题,现在也依然是公认的难题。

InfoQ:现阶段知识图谱在研究和落地应用方面,主要面对的技术挑战是什么?

贾岩涛:首先,数据本身的质量是需要长期建设的,每个文档都存在差异,每个文档都需要定义自己的抽取器,工作量非常大,现在还没有一个统一的规范的方式来表达,所以数据本身的建设是一个长期的工作。另外,现在越来越多应用,其输入不仅限于文本,还会有图片音频视频等多模态的内容,我认为这可能在未来三到五年内会有突破性的进展。更长期的挑战仍然是常识的理解与应用方面,可能 5 到 10 年,甚至是更长的时间,才会有一个比较好的解决方案。

InfoQ:NLP 领域现在非常热的预训练模型如 BERT,未来在知识图谱有哪些应用的潜力?

贾岩涛: BERT 是在一个很大的语料数据集上做训练,能否在一个特定领域的语料数据集(比如运营商的所有文档)上,做一个信息与通讯领域的 BERT,这样对运营商领域整体的理解或抽取或上层推理可以有一个很好的基础。现在我们已经开始在 BERT 上做一些尝试,不光是把它做到小型化,让其在端侧可用可推理;还有一个方向是把它应用在一些大的垂直领域上,做一些垂直领域相关的预训练模型,这个模型一旦形成以后,就会成为很好的财富。也有人把 BERT 本身看作知识,它沉淀下来的模型本身就是一些知识,这些知识就可以促进上层的其他应用,这可能也是未来比较重要的一个趋势,至少是垂直领域数据比较广的公司应该采用的方案。

InfoQ:您认为当前知识图谱行业存在泡沫吗?

贾岩涛:业界现在有两种观点,一种是说,知识图谱好像无所不能。这是因为知识图谱是另一个维度的数据处理方案。但是由于建设的图谱是不完备的,而且很多知识如何去表达,三元组可能不够,需要四元组、甚至多元组来表达,这又给抽取带来了更多的难度。另一方面,存在相当数量的人群对知识图谱持悲观态度,认为各行各业的图谱其技术基础都是在重复造轮子,解决的问题也仅限于智能问答或个人助理这些应用。

实际上这两种观点都不是很可取,我们应该更理性地看待知识图谱。就像我们在做图谱技术落地的时候,也是怀着对技术本身的敬畏心,去瞄准一个能让图谱价值最大化的应用来开展工作。比如对于用户最经常问到的问题类型,思考是否可以通过图谱来简化处理,让图谱技术充分发挥优势。当图谱在某些场景下不能很好地发挥作用时,我们可能需要跟学术界联合做一些研究,尝试催生一些新的方向或新的技术,这是需要一定的时间窗口的。我在今天的演讲中一直在强调,图谱的应用要分阶段,先把应用打细,同时底层的构建也要分阶段,有些阶段可能是脱离不了人的,有些阶段人可以少介入一些,二者之间是相辅相成的。现在 5G 跟 AI 很火,AI 本身就包含图谱,那么 5G 跟图谱之间是不是也有关联?5G 催生了很多 AI 的新应用,将来从多模态角度、从数据处理的角度都会提出一些新的诉求,可能就会催生另外一个维度的应用。从单模态的图谱到多模态的图谱,这个想象空间还是很大的,我们需要有一定的信心。

InfoQ:其实现在很多公司会构建一套自己的知识图谱构建平台和推理平台,华为也不例外,未来您觉得所有公司都会自己去做一套自己的平台吗?会不会有行业性的公共的知识图谱平台出现呢?

贾岩涛:事实上,中国中文信息学会语言与知识计算专委会正在尝试去推出一些公共的标准或者平台。比如中文开放知识图谱联盟 OpenKG,其初衷是希望能把大家的力量凝聚起来,将共性技术平台化并免费向社会开放,大家就可以在这个基础上做相关的迭代,这对于整个方向的发展是非常有好处的。现在有很多数据在 OpenKG 网站上都可以下载到了,这样一来,很多暂时还没有数据的企业也可以基于这个平台来展开工作,不一定从零开始,可能可以从 1 到 10,直接省略掉部分阶段。现在行业内可用、公开的知识图谱工具和组件可能确实还不够完善,希望未来有更多大企业或者标杆企业,能够把自己的工具,无论是在公司内部开放,还是对整个行业开放。我认为这是一个趋势,大家合作共赢,每个公司面临的问题或场景各有不同,但在大的场景方面仍存在一定的相似性。

采访嘉宾介绍:

贾岩涛,华为中央软件院知识图谱首席技术专家,曾任中科院计算所副研究员,开放网络课题组组长。在国内外顶级和重要期刊上发表论文 50 余篇,授权专利 15 个,出版知识计算相关专著 1 部。其主导设计与研发的知识图谱自动构建工具多次在国际知识图谱构建权威评测 TAC-KBP 中排名第一。CCF 大数据专家委通讯委员,中文信息学会语言与知识计算专委会委员。

评论

发布