写点什么

NLP 带来的“科幻感”超乎你的想象 | 京东 ACL2020 论文解读

  • 2020-05-09
  • 本文字数:2701 字

    阅读完需:约 9 分钟

NLP带来的“科幻感”超乎你的想象 | 京东ACL2020论文解读

近些年,人工智能无疑是信息技术领域最热门的技术之一。人工智能战胜世界围棋冠军、人工智能战胜游戏高手、人工智能医生看病会诊……不断进步的科技正推动着人工智能从一个无法实现的幻想,不断突破人类的想象,完成一个又一个挑战。

AI 写科幻剧本?科幻小说都不敢写

2018 年,在全球科幻电影节( Sci-Fi London Film Festival)上的一项名为“48 小时内电影创作挑战”(SFL 48 Hour Film Challenge)的活动中,来自纽约的导演 Oscar Sharp 和他在纽约大学 AI 研究院的同事 Ross Goodwin 利用人工智能(这套人工智能称自己为 Benjamin)创作出了一个剧本,并在 48 小时内将这个剧本拍摄出来了。虽然电影只有短短 9 分钟,但这也是世界上第一部由 AI 创作并拍摄出来的电影,这在以前是科幻小说都不敢写的故事。在此之后,人工智能在电影业中不断得到更多落地应用。现在,使用机器编写剧本的想法正在受到如 Netflix、Hulu、好莱坞等世界级影视科技公司的青睐。


人工智能剧本创作的关键技术—自然语言生成

而在使用人工智能进行影视剧本创作中,NLP 领域的自然语言生成技术是其中的关键技术之一。


但自然语言生成技术的应用场景和研究意义远不止于影视剧本创作。在电商场景下,可用于营销内容生成以及面向复杂问题回答与人机交互的自动文本生成;融媒体场景下,结合文本与语音合成技术可应用于新闻自动播报、直播文字、多语言/跨语言自动文摘。


相关内容可点击查看:


➡️京东商城背后AI技术揭秘(一)——基于关键词自动生成摘要


➡️京东商城背后AI技术揭秘(二)——基于商品要素的多模态商品摘要

NLP 最高级别学术认可— ACL 论文收录

近日,ACL 2020 公布了今年大会的论文录用结果。ACL 会议是 NLP 领域级别最高的国际学术会议,致力于推动自然语言处理相关研究的发展和国际学术交流。


根据官方公布的数据,本届大会共收到 3429 篇投稿论文,投稿数量创下了所有 ACL 旗下会议新高。ACL  除了在国际 AI 学界具有顶级影响力外,其审稿规范和审稿质量,也是当今 AI 领域国际顶级会议中公认的翘楚,论文被录取的难度十分高。以 2019 ACL 为例,论文录取率仅为 22.7% 。因此,研究论文能够被 ACL 录用,不仅意味着研究成果得到了国际学术界的认可,也证明了研究本身在实验严谨性、思路创新性等方面的实力。


京东 AI 研究院专注于持续性的算法创新,80% 的研究都由京东实际的业务场景需求为驱动,聚焦 NLP 语音、计算机视觉、机器学习(包括深度学习和强化学习)等领域。在 ACL 2020 中,京东 AI 研究院提交的多篇论文经过重重审核,最终被大会收录。


今天,我们就将为大家解读其中的一篇:Self-Attention  Guided  Copy Mechanism for  Abstractive  Summarization


论文对现有自动文摘的研究方法进行了优化,使通过该新模型生成的摘要内容更加精确。

论文解读

摘要

自动文本摘要(简称“自动文摘”)是自然语言处理领域中的一个传统任务,其目的是为输入文本生成一段简化文本。常用的自动文摘方法包括抽取式自动文摘(Extractive Summarization)和生成式自动文摘(Abstractive Summarization)。抽取式自动文摘方法抽取输入文本中的原始句子组成摘要;生成式自动文摘方法利用自然语言生成技术生成摘要。


自动文摘模型的关键是准确识别出输入文本中的重要信息,并输出涵盖这些信息的流畅文本。抽取式自动文摘方法可以显式的对输入文本的每个句子的重要性进行建模,但是输出的摘要是通过拼接句子构成的,句间的流畅性无法得到保证。生成式自动文摘方法通常可以输出较为流畅的摘要,但是有时无法完全准确捕捉到输入文本中的重要的信息。


本文所介绍的是自动文摘模型提出了一种自注意力(Self-Attention)指导的复制机制,该方法融合了抽取式自动文摘方法和生成式自动文摘方法,在多个文本摘要数据集上取得了比对比模型更好的性能。


我们首先介绍一下一些相关背景知识,包括自注意力机制,复制机制和抽取式自动文摘方法 TextRank 算法。

算法及模型

《Attention is all you need》提出了基于自注意力机制的 Transformer 框架,在机器翻译任务上超过了当时其他的模型。简单来说,自注意力机制将文本中的词两两计算相似度,然后对这些相似度进行归一化得到权重矩阵,最后将这些权重和相应的词进行加权求和得到下层的隐层表达。


复制机制是自动文摘模型中的一个常用机制。传统的文本生成在计算生成每个词的概率时,所有的词被限制在一个固定大小的词表中,即生成的词必须来自于这个固定大小的词表。复制机制除了会在这个固定大小的词表中生成某个词,还会选择性的在输入文本中选择一个词,这个词不受词表限制。复制机制实际上和人类在做摘要时的逻辑相吻合,即输入文本中的某些词,尤其是那些关键词,组成了这个文本的主干。我们只需要将这些关键词从输入中“复制”到输出中,然后再做一个适当的加工,使输出的摘要更加自然。复制机制的动机就是自动识别出这些关键词,然后将其“复制”到输出摘要中。TextRank 算法一种基于图模型的经典抽取式自动文摘方法,其基本思想来源于谷歌的 PageRank 算法。TextRank 算法通常会把输入文本分割成若干基本单元并建立图模型, 利用基本单元间关系组成的邻接矩阵进行随机游走,获得各基本单元的入度中心度得分,基于该得分可以对文本基本单元进行排序。


回到主线,本文提出的模型是基于自注意力机制的 Transformer 模型,并融入了复制机制,即每个词的输出概率为生成概率和复制概率的加权相加:   



其中 



 为生成模式的权重



为生成概率


为复制概率,本文采用了编码器-解码器之间的注意力权重



  作为复制概率:  



其中



 是解码器时刻的隐层状态,



是编码器第个输入对应的隐层状态,



为隐层状态维度


上文提到,自动文摘模型希望通过复制机制将输入文本中的重要词复制到输出中,但由于使用注意力权重作为复制概率,并不能显式地识别出哪些词是重要的词。我们需要找到一个合适的方式显式地为输入文本中的词的重要性进行打分,进而指导模型的复制机制,改善复制的效果。TextRank 算法利用邻接矩阵计算输入文本中每个词的重要性得分。


我们注意到,Transformer 模型的自注意力机制提供了输入文本中的词两两之间的权重,该权重矩阵可以作为 TextRank 算法的邻接矩阵。基于这个邻接矩阵,通过随机游走,我们可以得到输入文本中的词的入度中心度得分,以此作为词的重要性得分



进而指导复制概率,公式如下:



此外,我们还尝试了利用出度中心度得分指导复制概率的方法。


进一步地,我们还将  加入到损失函数中,使重要的词得到模型足够的“重视”,即:


原始的损失函数为:



我们改进的损失函数为:


实验结果

我们提出的模型在文本摘要数据集 CNN/DailyMail 和 Gigaword 上取得了比对比模型更好的性能。


CNN/DailyMail数据集实验结果对比


Gigaword数据集实验结果对比


2020-05-09 07:003642

评论

发布
暂无评论
发现更多内容

MySQL数据库 VS TiDB 精华入门版-平凯数据库敏捷模式试用体验

TiDB 社区干货传送门

平凯数据库敏捷模式

TiDB 分布式数据库学习路线图,一场投资未来的旅程,零基础也能冲!

TiDB 社区干货传送门

技术趋势 数据库原理 8.x 实践 部署与初始化 MySQL 迁移

平凯数据库敏捷模式体验分享

TiDB 社区干货传送门

平凯数据库敏捷模式

轻松驾驭分布式数据库:平凯数据库 TiDB 敏捷模式初体验

TiDB 社区干货传送门

平凯数据库敏捷模式

小红书数据库资源规模飙升超 100% 背后:数十套 TiDB 集群(过万核)助力小红书实现保稳、降本、增效三重奏

TiDB 社区干货传送门

互联网 数据库架构选型

平凯数据库与证通股份完成方案互认证,共筑证券 IT 合规治理新基石

TiDB 社区干货传送门

合作伙伴 证券 / 基金

TIDB 平凯数据库敏捷模式,国产化替代的首选|医疗行业

TiDB 社区干货传送门

医疗 数据库迁移 平凯数据库敏捷模式

金融行业工作者使用 TiDB 敏捷模式的超预期体验:成本优势、开发效率、运维便捷

TiDB 社区干货传送门

平凯数据库敏捷模式

信创数据库选型|平凯数据库敏捷模式对标 MySQL数据库试用体验

TiDB 社区干货传送门

平凯数据库敏捷模式

从 TiDB v5.4 到 v6.5 的平滑过渡指南

TiDB 社区干货传送门

YashanDB数据库在企业应用中的创新趋势

数据库砖家

TiDB 平凯数据库敏捷模式试用体验:方便扩展,更节省存储空间|水务行业可参考

TiDB 社区干货传送门

平凯数据库敏捷模式

2025年YashanDB数据库行业发展趋势与未来展望

数据库砖家

八年长跑,单表5TB无压力!某互联网银行用TiDB支撑600T核心数据的降本增效之路

TiDB 社区干货传送门

互联网 金融 银行 互联网金融

​平凯数据库敏捷模式:助力数字政务数据中台升级的“新引擎”​​

TiDB 社区干货传送门

测试 国产化替代 TEM 试用 MySQL 迁移 平凯数据库敏捷模式

TiDB 7.1 多租户在中泰证券中的应用

TiDB 社区干货传送门

金融 资源管理

平凯数据库与东软教育达成技术互认证 共筑教育数字化转型新基石

TiDB 社区干货传送门

教育 合作伙伴 数据库原理

平凯数据库敏捷模式实践评估:在线DDL、存储压缩和故障自愈方面的表现令人印象深刻

TiDB 社区干货传送门

平凯数据库敏捷模式

2025年YashanDB数据库技术发展趋势前瞻

数据库砖家

2025年YashanDB数据库市场格局与机遇展望

数据库砖家

安装便捷,才是好用的开始|平凯数据库敏捷模式体验分享

TiDB 社区干货传送门

平凯数据库敏捷模式

TiDB企业版敏捷模式体验与对比|制造业 MES、ERP 可参考

TiDB 社区干货传送门

平凯数据库敏捷模式

2025年YashanDB数据库全球市场预测及机遇

数据库砖家

平凯数据库与新开普完成互认证,技术融合重构智慧校园核心体验

TiDB 社区干货传送门

教育 合作伙伴 数据库原理

TiDB 平凯数据库敏捷模式使用体验及总结:批量写入效率和压缩比高,安装部署简洁方便!

TiDB 社区干货传送门

2025年YashanDB数据库技术发展趋势与展望

数据库砖家

平凯数据库TEM敏捷模式在openEuler-22.03-LTS 官方原版操作系统安装部署(车联网场景)

TiDB 社区干货传送门

平凯数据库敏捷模式

从MySQL迁移到 TiDB 平凯数据库敏捷模式的落地测试记录|用接近单机的成本,拿到了分布式的全套能力

TiDB 社区干货传送门

平凯数据库敏捷模式

职业学校平凯数据库(TiDB)敏捷模式试用报告

TiDB 社区干货传送门

教育 社区活动 性能测评 国产化替代 平凯数据库敏捷模式

平凯数据库与鼎驰科技完成方案互认证,共助医院数智化管理升级

TiDB 社区干货传送门

医疗 合作伙伴

AI 时代智能制造的数据底座解决方案——基于平凯数据库的敏捷、智能与可信赖实践

TiDB 社区干货传送门

智能制造 / 汽车

NLP带来的“科幻感”超乎你的想象 | 京东ACL2020论文解读_AI&大模型_京东AI研究院_InfoQ精选文章