【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

知识图谱的下一步:知识指导的预训练模型和图神经网络

  • 2019-12-12
  • 本文字数:5559 字

    阅读完需:约 18 分钟

知识图谱的下一步:知识指导的预训练模型和图神经网络

知识图谱作为对数据进行结构化组织与体系化管理的核心技术之一,不仅改变了互联网行业,也给信息与通信行业带来了深刻变革。随着 5G 与 AR 技术的兴起,知识图谱的发展出现了很多新的特点。近日,InfoQ 记者在AICon全球人工智能与机器学习大会 北京 2019 现场采访了华为中央软件院知识图谱首席技术专家贾岩涛,他与我们分享了知识图谱在信息通信行业的研究和应用重点,以及从非互联网公司视角看到的知识图谱未来的可能性。以下为采访问答实录。


InfoQ:贾岩涛老师您好,非常高兴这次能够在 AICon 现场采访到您。今天主要想跟您聊一聊知识图谱领域的现状和进展。首先能不能请您先介绍一下,您是什么时候开始进入知识图谱领域做相关研究的?


贾岩涛:我个人跟图还是很有渊源的,我读博时的研究方向就是图论相关的,博士毕业之后我在 2012 年加入中科院计算所工作了 5 年,一直在做图谱相关的研究工作。2011 年的时候,我们的实验室提了 OpenIO 的概念(Open Intelligent Ontology,开放智能本体),与后来 Google 提出的知识图谱概念很像。到了 2012 年Google提出了知识图谱的概念后,一下引起了工业界的巨大关注,后来我们发现,其实我们还算是一个先行者,在这之前就做了一些研究工作。2012 到 2017 年,我一直在做一些研究与工程相关的东西。因为知识图谱本身并不是一个纯研究问题,很多时候,图谱的效果怎样或者构建图谱的方法是不是有效,还要经得起实践的检验。所以知识图谱的定位应该是在研究与工程实践的中间地带,二者都要兼顾。首先知识图谱确实需要理论支撑,特别是当前自然语言处理的研究还并不成熟,工业界实践追求的是规模要大、性能要达标,用户体验要好,这几个需求的平衡很难把握。而且,工业界普遍会与实际的应用场景距离更近,且坐拥海量真实的数据。在知识图谱这个方向上,我虽然专注了十几年时间,但对此依然充满热情,相信还有很多待研究与待落地的东西。


InfoQ:您觉得在学术界做知识图谱的研究,和在工业界做应用落地,有什么特别不一样的地方吗?


贾岩涛:学术界,通常有一个公开数据集供大家实测,并不断地提升在这个数据集上的效果。但是工业界很多数据集并不像学术界的评测数据那样完美。工业界的数据集经常会暴露出更多问题,比如说同一个类型的实体很少,或者同一个 use case 下数据量不够,比如根因分析、故障定位领域,不像互联网的某些话题在网页上可以找到大量数据 。怎么针对这类真实的数据集做知识图谱的构建,怎么对数据进行大量的清洗工作,工业界更多在解决这些问题。总体来看,工业界更多是从应用和使用价值出发,自顶向下展开研发工作,通常只能覆盖 30%左右的问题;而学术界是从理论和科学问题出发,自底向上展开研究,可能研究 60%左右的问题;中间还存在 10%的 Gap,这 10%其实需要学术界与工业界联合起来一起解决。知识图谱领域近年来受到了工业界的广泛关注,并辅以持续的投入,而学术界也有很多研究人员在从事相关的研究工作,例如国内外很多高校都开设了类似的研究方向,这样可以从两个层面更好的推动这个方向的发展。


InfoQ:华为是什么时候开始投入知识图谱研究的?也是在 2012 年以后吗?


贾岩涛:对,工业界包括华为在内的很多公司,拥有大量数据,当出现一些历史上解决不了的场景与新问题时,就会想尝试一些新的解决手段。知识图谱在 2012 年推出以后,从 13-14 年开始,国内各个高校与公司都开始进行初步的探索。只不过大家场景不太一样,互联网公司可能更关注搜索上的应用,如何帮助消费者提升互联网搜索体验,而像华为这样的信息与通讯厂商可能会关注运营商领域、消费者领域(尤其是手机、可穿戴智能设备等)等领域如何应用知识图谱。公司内部爆发对图谱的广泛热情,可能是从去年开始。我们知道,中文信息学会举办的知识图谱大会 CCKS 也是从去年开始达到了七八百人这样的参会者规模。公司各产品线越来越认识到知识图谱的重要性,包括底层数据治理,上层应用设计,特别是一些原子化的设计,都在尝试使用知识图谱相关的技术。


华为做知识图谱有两种思路,一种是比较短平快的,基于解决用户实际问题的考虑来选择构建哪些知识图谱;另一个思路是偏长期规划的,我们内部也在想图谱本身是否能做一个基础设施(知识中台),通过图谱来驱动资料的编写、数据的规范化等。这个可能是一个更长期的过程,但是可以提高产品线乃至整个行业的知识管理和应用的水平。当大家都按照一定的 schema 约束与规范,来书写知识以后,行业就会变得更加规范,资料本身的规范化为将来的结构化带来了巨大的便利。虽然这个过程耗时较久,但是从长期意义上讲是战略性的。所以,不仅构建知识图谱、做知识推理,尝试用图谱作为一个中间的技术手段来驱动数据的治理、数据资料的编写,也是业界,特别是一些特定领域企业可以采纳的一个方案。


InfoQ:结合您的经验和您这些年在业内看到的情况,您认为当前知识图谱相关技术处于什么样的发展阶段了?它是否已经足够成熟?


贾岩涛:现在逐渐开始有一些落地的场景,但实际上在研究层面还有大量问题需要攻克。我们在前几个月系统性地对近几年的国际顶级会议做了分析,发现每个阶段都有各自的问题。比如在构建层面,近几年大家比较关注的策略,包括弱监督、远程监督、自监督的抽取方案,还有小样本的抽取。推理层面集中在基于图神经网络、基于图表示学习的研究,比如今年的神经网络顶级会议 NeurIPS 上有一个关于图神经网络的 Workshop,里面有 92 篇论文都是跟图神经网络和图表示学习相关的。图表示学习是近几年很火的一个方向,现在也逐渐具备落地的趋势了。在知识建模的层面,大家正在不断探索,比如事件的建模、动态知识的建模,近几年也有一些比较亮眼的工作。应用层面,各行各业催生了不少新的知识图谱应用,经典的三大应用就是搜索、问答和推荐,现在像智能运维、设备自动化部署后的解决方案讲解等,都是很有意思的应用。


InfoQ:图表示学习和图神经网络今年确实挺火的,您怎么看待这两个技术今年突然一下就火了?


贾岩涛:这是因为刚好到了这样的一个阶段。就有点像有人在问,为什么知识图谱近几年越来越火?


在 Gartner 的技术曲线中,知识图谱这几年一直处于爬升期,Gartner 预测知识图谱再过 5 到 10 年才会真正地有一个爆发的落地。我们内部分析认为,首先近几年人工智能火了,其中感知层的部分,比如图像识别、视频理解等,现在已经有大量的创业公司尝试落地,包括安防领域的人脸识别,但在认知层方面,特别是自然语言理解,以及利用知识让机器具备推理能力等方面,一直是一个空白。但人工智能火了以后,特别是阿尔法狗的出现,让人们意识到了人工智能在认知层的进步。这些都是近几年知识图谱越来越火的重要因素。其次,数据本身越来越丰富,知识图谱强调的规模大、实体数量多的特性有了数据基础,这几个因素共同促进了知识图谱成为热点话题。


InfoQ:您觉得图神经网络的出现可以解决知识图谱的什么问题?


贾岩涛:我认为图神经网络是另外一个空间,因为图是一种符号表示,图神经网络实际上是想把图的符号化表示,转到向量空间或者向量的语义空间里面去做一些数值计算。这个计算最大的好处是,图本身是符号,两个点之间直接运算存在一定的困难,特别是两个节点之间没有直接的关联关系的时候,但是转化成向量以后,任意两个节点之间都是可以做计算的。另外,图有一层邻居、两层邻居,以及诸如结构等价性等特征,如何把图的特性更好地表达出来,图神经网络是方式之一,因为它可以把局部的特征与全局的特征,在一个优化函数里面更好地度量出来。这样,虽然每个节点是一个向量,但是这个向量是通过它的局部以及外围,甚至是更远的一些信息传导来的,它的编码能力会更强,可以直接用于计算,便于上层应用。


当然我们也要客观地看待图神经网络。特别是它到底能够编码多少信息?图本身关联关系比较复杂,有多种类型的节点和多种类型的边,本身的结构与内容信息在做完转换以后可能会存在信息丢失的情况。同时,做完转换以后,对于上层应用的可解释性,当前在一定程度上也是缺乏的。


InfoQ:回顾过去这一年,知识图谱在研究和落地这两个方面,有什么值得一提的进展吗?


贾岩涛:在知识推理层面,图表示学习和图神经网络的研究与应用是重要的进展之一。除了建模、构建、推理以外,还有一点值得一提的是应用层面,像自然语言领域,近几年预训练模型的兴起,使得知识指导的自然语言理解再次成为热点。同时,自然语言处理中与常识相关的问答有待于基于知识进一步的提升效果。预训练模型本身能够反过来去驱动知识的应用,这是从去年至今大家都在争相布局的一个点。这两个点是近期知识图谱研究的热点,从工业界角度来讲,搜索、问答和推荐都在逐步应用,但是现在还有智能决策、情报分析、BI 等的应用场景值得进一步关注。例如故障定位、智能运维,因为其决策的链条更长,需要更多的专家经验,难度也更大。


InfoQ:还是看过去这一年,知识图谱领域是否有哪些方面做得不太好或者相对来说进展缓慢的?


贾岩涛:通过我们近几年的调研发现,过程类图谱的构建还没有太多成型的方法。国外有一些研究机构从阅读理解的角度去研究这类问题,但实际上,是不是要把它拆解到知识图谱的实体粒度,现在研究的人很少。这部分现在依然是瓶颈,尤其是对于大量设备的操作、流程和规范这类知识的建模与抽取,还没有太多的研究与关注。还有像小样本的抽取和构建问题,现在也依然是公认的难题。


InfoQ:现阶段知识图谱在研究和落地应用方面,主要面对的技术挑战是什么?


贾岩涛:首先,数据本身的质量是需要长期建设的,每个文档都存在差异,每个文档都需要定义自己的抽取器,工作量非常大,现在还没有一个统一的规范的方式来表达,所以数据本身的建设是一个长期的工作。另外,现在越来越多应用,其输入不仅限于文本,还会有图片音频视频等多模态的内容,我认为这可能在未来三到五年内会有突破性的进展。更长期的挑战仍然是常识的理解与应用方面,可能 5 到 10 年,甚至是更长的时间,才会有一个比较好的解决方案。


InfoQ:NLP 领域现在非常热的预训练模型如 BERT,未来在知识图谱有哪些应用的潜力?


贾岩涛:BERT是在一个很大的语料数据集上做训练,能否在一个特定领域的语料数据集(比如运营商的所有文档)上,做一个信息与通讯领域的 BERT,这样对运营商领域整体的理解或抽取或上层推理可以有一个很好的基础。现在我们已经开始在 BERT 上做一些尝试,不光是把它做到小型化,让其在端侧可用可推理;还有一个方向是把它应用在一些大的垂直领域上,做一些垂直领域相关的预训练模型,这个模型一旦形成以后,就会成为很好的财富。也有人把 BERT 本身看作知识,它沉淀下来的模型本身就是一些知识,这些知识就可以促进上层的其他应用,这可能也是未来比较重要的一个趋势,至少是垂直领域数据比较广的公司应该采用的方案。


InfoQ:您认为当前知识图谱行业存在泡沫吗?


贾岩涛:业界现在有两种观点,一种是说,知识图谱好像无所不能。这是因为知识图谱是另一个维度的数据处理方案。但是由于建设的图谱是不完备的,而且很多知识如何去表达,三元组可能不够,需要四元组、甚至多元组来表达,这又给抽取带来了更多的难度。另一方面,存在相当数量的人群对知识图谱持悲观态度,认为各行各业的图谱其技术基础都是在重复造轮子,解决的问题也仅限于智能问答或个人助理这些应用。


实际上这两种观点都不是很可取,我们应该更理性地看待知识图谱。就像我们在做图谱技术落地的时候,也是怀着对技术本身的敬畏心,去瞄准一个能让图谱价值最大化的应用来开展工作。比如对于用户最经常问到的问题类型,思考是否可以通过图谱来简化处理,让图谱技术充分发挥优势。当图谱在某些场景下不能很好地发挥作用时,我们可能需要跟学术界联合做一些研究,尝试催生一些新的方向或新的技术,这是需要一定的时间窗口的。我在今天的演讲中一直在强调,图谱的应用要分阶段,先把应用打细,同时底层的构建也要分阶段,有些阶段可能是脱离不了人的,有些阶段人可以少介入一些,二者之间是相辅相成的。现在 5G 跟 AI 很火,AI 本身就包含图谱,那么 5G 跟图谱之间是不是也有关联?5G 催生了很多 AI 的新应用,将来从多模态角度、从数据处理的角度都会提出一些新的诉求,可能就会催生另外一个维度的应用。从单模态的图谱到多模态的图谱,这个想象空间还是很大的,我们需要有一定的信心。


InfoQ:其实现在很多公司会构建一套自己的知识图谱构建平台和推理平台,华为也不例外,未来您觉得所有公司都会自己去做一套自己的平台吗?会不会有行业性的公共的知识图谱平台出现呢?


贾岩涛:事实上,中国中文信息学会语言与知识计算专委会正在尝试去推出一些公共的标准或者平台。比如中文开放知识图谱联盟 OpenKG,其初衷是希望能把大家的力量凝聚起来,将共性技术平台化并免费向社会开放,大家就可以在这个基础上做相关的迭代,这对于整个方向的发展是非常有好处的。现在有很多数据在 OpenKG 网站上都可以下载到了,这样一来,很多暂时还没有数据的企业也可以基于这个平台来展开工作,不一定从零开始,可能可以从 1 到 10,直接省略掉部分阶段。现在行业内可用、公开的知识图谱工具和组件可能确实还不够完善,希望未来有更多大企业或者标杆企业,能够把自己的工具,无论是在公司内部开放,还是对整个行业开放。我认为这是一个趋势,大家合作共赢,每个公司面临的问题或场景各有不同,但在大的场景方面仍存在一定的相似性。


采访嘉宾介绍:


贾岩涛,华为中央软件院知识图谱首席技术专家,曾任中科院计算所副研究员,开放网络课题组组长。在国内外顶级和重要期刊上发表论文 50 余篇,授权专利 15 个,出版知识计算相关专著 1 部。其主导设计与研发的知识图谱自动构建工具多次在国际知识图谱构建权威评测 TAC-KBP 中排名第一。CCF 大数据专家委通讯委员,中文信息学会语言与知识计算专委会委员。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-12-12 12:043077
用户头像
蔡芳芳 InfoQ主编

发布了 778 篇内容, 共 489.1 次阅读, 收获喜欢 2745 次。

关注

评论

发布
暂无评论
发现更多内容

打造新一代企业数据驱动体系

StarRocks

数据库 大数据 数据分析 数字化转型 OLAP

阿里拆中台?从架构师角度解读中台

javaba韩老师

架构 中台战略 TOGAF 中台的前世今生 中台的由来

引起故障的原因

jorden wang

如何利用状态同步开发一款游戏

Isa 婷婷

node.js 游戏开发 24小时自助游戏厅 联机游戏

曲折!目标腾讯,字节,拼多多;最后居然五面进了阿里?

Java架构之路

Java 程序员 架构 面试 编程语言

干货|原来IPFS是这样存储文件的

QTech

区块链技术 IPFS 星际文件系统

Polkadot系列(四)——Polkadot茶溪岸啤(XCMP),干杯!

QTech

区块链技术 polkadot 跨链

基于GaussDB(DWS)的全文检索特性,了解一下?

华为云开发者联盟

数据库 数据仓库 数据

内存分页不就够了?为什么还要分段?还有段页式?

yes

操作系统 内存管理

LeetCode题解:264. 丑数 II,三指针,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

「每日一题」抖音面试题:请阐述vue数据绑定的实现原理

Java架构师迁哥

开源整套Netty源码笔记+19个案例调优+游戏项目,终于彻底顿悟了

Java架构追梦

Java 源码 架构 Netty 游戏项目

软件测试--前后端数据交互

测试人生路

软件测试

Spring Cloud Gateway (六) 自定义 Global Filter

Java 网关 SpringcloudGateway

完美!华为爆出Redis宝典,原来Redis性能可压榨到极致

996小迁

redis 架构 面试 资料

优化了MYSQL大量写入问题,老板奖励了1000块给我

华为云开发者联盟

MySQL sql 写入

面试软件测试所需要掌握的7个技能

华为云开发者联盟

sql 面试 测试

light-rtc: 理念与实践

阿里云视频云

架构 音视频 WebRTC RTC

字节内部MySQL宝典意外流出!极致经典,堪称数据库的天花板

比伯

Java 编程 架构 面试 技术宅

2020年不容错过的10本大咖之作 | 你最Pick哪一本?

博文视点Broadview

基于 Flink+Iceberg 构建企业级实时数据湖

Apache Flink

大数据 flink 流计算

Flink SQL 实战:HBase 的结合应用

Apache Flink

flink

面试腾讯,字节跳动首先要掌握的Java多线程,一次帮你全掌握

Java架构之路

Java 程序员 架构 面试 编程语言

准备去阿里以及大厂面试你都需要会些什么?我从任职阿里的朋友口中,总结出了一些答案!

Java架构之路

Java 程序员 架构 面试 编程语言

主从哨兵集群终于给你说明白了

moon聊技术

数据库 redis

架构师训练营第六周作业

zamkai

Flink 双流 Join 的3种操作示例

Apache Flink

flink 流计算

深层互联带领自动旅游讲解耳麦进入“非入耳”时代

DT极客

干了三年的Java,你竟然还不会MySQL性能优化

华为云开发者联盟

Java MySQL sql

敏捷与安全不可兼得吗?看完这篇文章后,我想说:未必!

华为云开发者联盟

敏捷 安全 开发

40亿条/秒!Flink流批一体在阿里双11首次落地的背后

Apache Flink

flink 流计算

知识图谱的下一步:知识指导的预训练模型和图神经网络_语言 & 开发_蔡芳芳_InfoQ精选文章