写点什么

阿里巴巴 AAAI 2018 录用论文:将句法信息加入实体表示模型

  • 2018-01-09
  • 本文字数:1517 字

    阅读完需:约 5 分钟

论文名称:Syntax-aware Entity Embedding for Neural Relation Extraction(句法敏感的实体表示用于神经网络关系抽取)

团队名称:业务平台事业部

作者:何正球,陈文亮,张梅山,李正华,张伟,张民

摘要

句法敏感的实体表示用于神经网络关系抽取。关系抽取任务大规模应用的一个主要瓶颈就是语料的获取。近年来基于神经网络的关系抽取模型把句子表示到一个低维空间。这篇论文的创新在于把句法信息加入到实体的表示模型里。首先,基于 Tree-GRU,把实体上下文的依存树放入句子级别的表示。其次,利用句子间和句子内部的注意力,来获得含有目标实体的句子集合的表示。

研究背景和动机

关系抽取任务大规模应用的一个主要瓶颈就是语料的获取。远程监督模型通过将知识库应用于非结构化文本对齐来自动构建大规模训练数据,从而减轻对人工构建数据的依赖程度,并使得模型跨领域适应能力得到增强。然而,在利用远程监督构建语料的过程中,仅仅利用实体名称进行对齐,而不同实体在不同关系下应该具有更加丰富的多样的语义表示,从而导致错误标注等问题。因此,一套更加丰富的实体表示显得尤为重要。

另一方,基于语法信息的方法通常作用于两个实体之间的关系上,而语法信息是可以更加丰富实体的表示的。因此,本文基于句法上下文的实体表示来丰富实体在不同关系模式下的语义,并结合神经网络模型处理关系抽取任务。

相关工作介绍

我们把相关的工作大致分成早期基于远程监督的方法和近年来基于神经网络模型两类。

为了解决关系抽取任务严重依赖于标注语料的问题,Mintz et al.(2009) 率先提出了基于远程监督的方法构建标注语料。然而,这样构建的自动标注语料含有大量的噪声。为了缓解语料中噪声带来的影响,Riedel et al.(2010) 将关系抽取看成是一个多实例单类别的问题。进一步的,Hoffmann et al.(2011) 和 Surdeanu et al.(2012) 采取了多实例多类别的策略。同时,采用最短依存路径作为关系的一个语法特征。上述方法典型的缺陷在于模型的性能依赖于特征模板的设计。

近年来,神经网络被广泛的应用于自然语言处理任务上。在关系抽取领域,Socher et al.(2012) 采用循环神经网络来处理关系抽取。Zeng et al.(2014) 则构建了端到端的卷积神经网络,进一步的,Zeng et al.(2015) 假设多实例中至少有一个实例正确地表示了相应的关系。相比于假设有一个实例表示一对实体的关系,Lin et al.(2016) 通过注意力机制挑选正面的实例更充分的使用了标注语料含有的信息。

以上这些基于神经网络的方法大多数都使用词层次的表示来生成句子的向量表示。另一方面,基于语法信息的表示也受到了众多研究者的青睐,其中最主要的即最短依存路径 (Miwa and Bansal(2016) 和 Cai et al.(2016))。

主要方法

首先,基于依存句法树,利用基于树结构的循环神经网络(Tree-GRU)模型生成实体在句子级别的表示。如上图所示,有别于仅仅使用实体本身,我们能够更好地表达出长距离的信息。具体的实体语义表示如下图所示。我们使用Tree-GRU 来获得实体的语义表示。

其次,利用基于子节点的注意力机制(ATTCE,上图)和基于句子级别的实体表示注意力机制(ATTEE,下图) 来减轻句法错误和错误标注的负面影响。

实验结果

本文在NYT 语料上进行了实验。最终结果如上图所示。其中,SEE-CAT 和SEE-TRAINS 分别是本文使用的两种结合三种向量表示(句子的向量表示,两个实体的向量表示)的策略。从图中可以看出,本文提出的模型在相同数据集上取得了比现有远程监督关系抽取模型更好的性能。

总结

本文的实验结果表明,更丰富的命名实体语义表示能够有效地帮助到最终的关系抽取任务。

如果您也有论文被 AAAI录用或者对论文编译整理工作感兴趣,欢迎关注AI前线(ai-front),在后台留下联系方式,我们将与您联系,并进行更多交流!

2018-01-09 17:222869

评论

发布
暂无评论
发现更多内容

关于 RocketMQ Summit 的延期通知

阿里巴巴云原生

怎么加盟6元自助洗车?一起来了解下

共享电单车厂家

自助洗车怎么加盟 6元自助洗车 加盟自助洗车 6元自助洗车项目

元宇宙背景下——内容生产传播商业价值分析2022

易观分析

元宇宙 内容生产传播

腾讯WeTest通过TMMi 3级认证

WeTest

K8s 基于 EFK 的日志解决方案介绍

移动云大数据

elasticsearch Kibana Fluentd

ironSource Luna 正式推出针对苹果搜索广告的自动化投放工具

极客天地

TASKCTL的单机与分布式部署,如何启动服务和代理节点监听

敏捷调度TASKCTL

批量任务 调度引擎 ETL 自动化运维 调度任务

生产到一半改工艺生产为另一个产品的业务方案探讨

秋去冬来春未远

生产改单 生产执行 生产拆单

基于数据技术全域流量协同优化是银行零售业务关键突破点

易观分析

银行 数据技术

PlatoFarm生态NFT总量恒定,激励机制让Dao成员持续贡献

西柚子

iOS编码规范

刁架构

规范 iOS编码规范

漏洞挖掘之Spring Cloud注入漏洞

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

花14天梳理了3月份各大厂问得最多的50道Java基础面试题

北游学Java

Java 面试

如何通过 Node 上传小程序代码,不会就看看吧

CRMEB

PlatoFarm生态NFT总量恒定,激励机制让Dao成员持续贡献

小哈区块

Java运算符、输入、选择流程控制详细讲解

五分钟学大数据

Java 4月月更

走进直播间——智能自动化助力政企数字化转型

云计算

技术干货| 如何在MongoDB中轻松使用GridFS?

MongoDB中文社区

mongodb

模块三作业

HZ

架构实战营 #架构实战营

自助洗车机洗车多少钱一次?利润有多少

共享电单车厂家

自助洗车加盟 自助洗车机洗车 自助洗车多少钱一次

中兴通讯加入星策开源社区 携手推动企业智能化转型建设

星策开源社区

人工智能 机器学习 开源社区 企业转型

干掉丑陋的swagger,堪称开发者的瑞士军刀!

Liam

后端 Jmeter Postman 后端开发 swagger

如何使用 Serverless Devs 部署静态网站到函数计算

阿里巴巴云原生

EventBridge 与 FC 一站式深度集成解析

阿里巴巴云原生

快速了解日志概貌,详细解读13种日志模式解析算法

云智慧AIOps社区

算法 运维 安全 监控 日志

线上活动| 阿里云、亚马逊云与MongoDB的大佬带你来涨知识!

MongoDB中文社区

mongodb

首届全球基础软件创新大会明天开幕!

OpenAnolis小助手

开源 操作系统 龙蜥社区 国产 基础软件创新大会

TASKCTL 调度高可用架构服务与安装

敏捷调度TASKCTL

kettle 批量任务 调度引擎 ETL 调度任务

开个自助洗车要多少钱?主要费用有哪些?

共享电单车厂家

自助洗车加盟 开个自助洗车

加盟自助洗车需要人工全天看守吗

共享电单车厂家

24小时无人自助洗车 加盟自助洗车

无人洗车店生意怎么样?想加盟自助洗车

共享电单车厂家

加盟自助洗车 无人自助洗车加盟 无人洗车店生意

阿里巴巴AAAI 2018录用论文:将句法信息加入实体表示模型_阿里巴巴_阿里巴巴业务平台事业部_InfoQ精选文章