AICon日程100%就绪,9折倒计时最后一周 了解详情
写点什么

专访 DLP-KDD 最佳论文作者,探讨图神经网络的特点、发展与应用

  • 2020-04-28
  • 本文字数:2872 字

    阅读完需:约 9 分钟

专访DLP-KDD最佳论文作者,探讨图神经网络的特点、发展与应用

InfoQ 的读者大家好,我是 KDD Workshop DLP-KDD 2020 的联合主席王喆,在 DLP-KDD 2020 征稿之际,我们专访了上一届 Workshop Best Paper Award(An End-to-End Neighborhood-based Interaction Model for Knowledge-enhanced Recommendation)的获得者:曲彦儒,白婷,与这两位图神经网络领域的专家深入探讨当前的学术及工程热点“图神经网络”的发展和应用,希望对大家有所帮助和启发。



Q : 能否简要介绍一下图神经网络与传统的神经网络(比如经典的 Embedding+MLP 结构,以及 RNN 等序列模型)之间的联系和区别?


A : 这些模型的共同点在于, 都是通过神经网络端到端地拟合输入数据和输出数据之间的函数关系。他们之间最主要的区别在于, 不同的模型结构能够适应不同的先验知识. 比如全连通神经网络,没有假设任何先验知识, RNN 能够适应线性和序列性先验, 图神经网络能够适应更加复杂的结构性先验, 比如定义多个概念之间的关系, 描述复杂的非线性结构等。


此外,相比于其他神经网络模型,图神经网络能够从结构和功能两个方面建模数据整体特性,结构是指已有数据本身的相互关联,是已观测到的;功能是指信息在图中传播、相互影响的过程,与已有结构有关,也与具体应用场景有关。因此,与其他神经网络模型相比,图神经网络在数据建模和信息挖掘上,具有更强的普适性。


Q : 如何看待图神经网络在当前学术界的热度和发展?


A : 图神经网络是当前研究的一个热点,从历史上看,这是一个很自然的事情。事物存在即产生关联,网络无处不在。图作为描述网络的数学语言,能够很好的刻画万象的物理世界。关于图的研究,最早可以追溯到 18 世纪,在 20 世纪已经是一个很重要且热门的研究点。近年来,随着深度学习的兴起,神经网络表现出强大的数据拟合和刻画能力。图 + 神经网络,可以说是强强联合,作为一种适用场景广泛,且数据拟合能力强的建模方式,受到学术界的广泛关注是非常自然的事情。


具体来讲,从数据的角度来看,相比于图像和文本, 图类型数据的分布更加广泛, 图结构也是更加复杂且一般的数据结构。图神经网络是处理图类型数据的一个通用端到端模型。从原理上来看, 图神经网络也能够更好地适应一些问题, 比如推理。图神经网络拓展了机器学习模型的活动范围, 使得我们能够高效处理新的数据和问题, 因此近年来取得了较好的发展。目前,图神经网络也存在一些普遍问题, 比如如何提升在大规模图上的效率, 如何降低采样方法带来的方差等。


Q : 图神经网络和之前的 DeepWalk,Node2vec 等 Graph Embedding 方法有什么不同?


A : 基于 Random Walk 的 Graph embedding 方法本质上没有直接处理图结构, 而是通过将节点和邻域序列化, 转化为类似于文本的线性结构。图神经网络的优势在于能够直接处理图结构, 同时进行节点和邻域之间的信息传播以及参数更新。两种方法在不同数据上表现各有优劣, 整体看来图神经网络更加端到端, 更加通用。另外,关于 Graph Embedding 的定义和范畴,不同的人有不同的理解,我个人认为图神经网络可以看作是深层的 Graph embedding,因为不管是使用卷积、注意力等各种不同方式,最终也是得到带有结构信息的节点低维特征表示。


Q : 什么样的数据更适合图神经网络处理?数据的结构特点对最终效果的影响大吗?


A : 之前说到图神经网络的适用性非常强,即与其他神经网络模型相比,在大部分的应用场景下,效果不会太差,而且更加鲁棒。但针对具体的问题,是否选择图神经网络来处理,我觉得主要看应用场景和数据特点。举个例子,如果数据中序列性非常强,或者要研究的问题跟时间强相关,我个人觉得直接采用序列模型建模更加合适;如果数据比较稀疏,需要邻域节点做信息协同建模,那基于空间的图神经网络就很适合。总之,观察数据特点,分析研究的问题,图神经网络模型也需要根据数据特点来定制。图神经网络可以看作万金油,但不是特效药。


Q : 文章提出了 NI Model(Neighborhood Interaction Model),是否能够处理高阶关系(>2)数据?高阶数据对最终的效果是否有价值?


A : 我们提出的 NI 模型是将知识图谱引入推荐,通过分别聚合用户和商品的高阶邻域信息,建模融合邻居信息的交互。NI 模型可以处理高阶的关系,但从实验效果上,跟已有图神经网络的研究一致,2-3 阶的图神经网络已经能够达到最优的效果了,阶数太低,聚合信息可能不足,阶数太高,又可能会引入噪声数据。在图神经网络中,聚合太高阶的关系,会导致计算开销太大,且很多时候会使效果变差。


Q : 图神经网络有哪些应用领域和应用场景?


A : 图神经网络的应用领域广泛,图作为刻画网络的数学语言,个人认为是可以延续网络科学应用的各个领域,如: 经济网络、通信网络、交通网络、社交网络、购买网络、生物网络等各个方面。目前研究比较多的应用场景还是在社交推荐等场景中,尤其是在关系预测、推荐系统、实体搜索、信息传播等方面。


Q : 图神经网络领域还有哪些待解决的热点问题?如果让你来选择 NI Model 工作的下一步方向,你会如何选择呢?


A : 我认为有以下几个方面,一是图神经网络的鲁棒性和效率问题,包括预训练图神经网络、 降低采样方法在大规模图上的方差、如何处理超大规模网络;二是图神经网络的动态性,当引入变化的网络结构时,如何保证模型的适应性和稳定性;三是图神经网络的异构性,当网络存在异构的边和节点信息、节点和边具有属性信息,如时序信息等,如何将多种异构的语义空间建模在同一个网络中;四是基于图神经网络的高阶推理,基于图逻辑推理是使图神经网络具备更强大智能的基础。这些都是目前图神经网络研究中需要进一步研究和探讨的问题。邻域交互模型 (NI model) 主要探究了推荐系统中用户邻域 (用户背景知识) 和商品邻域 (商品背景知识) 之间的交互关系, 事实上,基于背景知识的图结构和交互关系是非常普遍的。我们在实验中发现, 现有的图神经网络还不能很好地刻画邻域之间的交互, 这说明图神经网络本身还有提升的空间。我们希望能够从邻域交互模型出发, 进一步改进基础的图神经网络, 此外,也将进一步探讨在交互过程中,利用知识图谱的高阶推理带来推荐模型的性能的提升,在更广阔的应用场景中带来一些新的启发。


专家简介:


曲彦儒,上海交通大学本硕,UIUC 在读博士,在 WWW,AAAI,ICDM 等会议发表论文多篇,研究方向信息系统,知识图谱,自然语言处理。


白婷,中国人民大学博士,计算机学院讲师,在 SIGIR、WWW、KDD、CIKM、WSDM、NAACL、TKDE 等会议、期刊发表多篇文章,其中有三篇获得最佳论文 / 最佳论文候选奖。研究方向是推荐系统,深度学习,社交媒体数据挖掘和用户行为分析。


DLP-KDD Workshop 介绍:


DLP-KDD 作为数据挖掘、机器学习领域学术盛会 KDD 的下设 workshop,由阿里发起,这届 workshop 由来自阿里巴巴 / 腾讯 / 新浪微博 /Google(DeepMind)/Facebook/ 微软 /Roku,以及上海交通大学 / 犹他大学等工业界 / 学术界资深同行组成主席团,旨在促进深度学习在广告、推荐、搜索场景下的应用与业界交流,录用文章的工程性、实用性很强,推荐算法工程师同行和学术界的研究者们积极参与。


DLP-KDD 2020 的征稿结束日期是 2020 年 5 月 20 日,详细投稿信息请点击这里进行查看。


2020-04-28 14:001968

评论

发布
暂无评论
发现更多内容

加密货币可能是人类历史上最大的/富国银行报告:加密货币投资像19世纪50年代的早期淘金热财富转移

CECBC

数字货币

Redis Sentinel-深入浅出原理和实战

Linux服务器开发

redis 中间件 底层应用开发 web服务器 Linux服务器开发

架构师训练营W08作业

Geek_f06ede

一道腾讯面试题目:没有listen,能否建立TCP连接

linux大本营

c++ Linux TCP 后台开发 TCP/IP

诚招译者 | Bruce Eckel On Java 8 中文版

图灵社区

Java

揭开IP地址的神秘身份!!!

德胜网络-阳

合伙开公司、借款变工资 | 法庭上的CTO(7)

赵新龙

CTO 法庭上的CTO

架构词典:工程

lidaobing

架构 工程能力

CTO与COO联手接了公司的外包项目 | 法庭上的CTO(6)

赵新龙

CTO 法庭上的CTO

深入Linux内核架构——进程虚拟内存

赖猫

c++ Linux

LeetCode题解:515. 在每个树行中找最大值,BFS,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

docker与podman的故事:一个方兴未艾,一个异军突起

晓川

天下武功,唯”拆“不破| 技术人应知的创新思维模型 (4)

Alan

思维模型 技术人应知的创新思维模型 MECE 组合创新 28天写作

甲方日常 66

句子

工作 随笔杂谈 日常

Gemini双子新约系统软件开发|Gemini双子新约APP开发

系统开发

DolphinDB与Pandas对于大文本文件处理的性能对比

DolphinDB

数据库 pandas tsdb 数据库选择 DolphinDB

修一座安全的广厦,庇护赛博世界的流浪者

脑极体

案件数同比下降七成 北京引入“区块链”化解物业纠纷

CECBC

区块链 法律

滴滴开源小桔棱镜:一款专注移动端操作行为的利器

滴滴技术

开源 滴滴 移动端

TensorFlow2 Fashion-MNIST图像分类(二)

书豪

SDK开发质量保障经验总结

张明云

接口 程序设计 接口测试 sdk SDK测试

海量数据架构下如何保证Mycat的高可用?

冰河

分布式事务 分布式数据库 分布式存储 mycat 数据库集群

生产环境全链路压测建设历程之五 针对稳定性矛盾, 从目标、流程、组织体系发力

数列科技杨德华

架构师训练营第 1 期 - 第 11周 - 学习总结

wgl

极客大学架构师训练营

观点|发展区块链金融,长三角如何建设“四梁八柱”

CECBC

区块链

cartographer环境建立以及建图测试(详细级)

良知犹存

cartographer slam

大促中为什么需要可视化监控大屏?

京东科技开发者

大数据 监控 数据可视化

架构师训练营第 1 期第12周作业

业哥

http client 中的 connectionRequestTimeout, connectTimeout, socketTimeout

不在调上

TensorFlow2 Fashion-MNIST图像分类(一)

书豪

tensorflow 学习

本文帮你在Unix下玩转C语言

MySQL从删库到跑路

unix C语言

专访DLP-KDD最佳论文作者,探讨图神经网络的特点、发展与应用_AI&大模型_王喆_InfoQ精选文章