【锁定直播】字节、华为云、阿里云等技术专家讨论如何将大模型接入 AIOps 解决实际问题,戳>>> 了解详情
写点什么

NLP 带来的“科幻感”超乎你的想象 | 京东 ACL2020 论文解读

  • 2020-05-09
  • 本文字数:2701 字

    阅读完需:约 9 分钟

NLP带来的“科幻感”超乎你的想象 | 京东ACL2020论文解读

近些年,人工智能无疑是信息技术领域最热门的技术之一。人工智能战胜世界围棋冠军、人工智能战胜游戏高手、人工智能医生看病会诊……不断进步的科技正推动着人工智能从一个无法实现的幻想,不断突破人类的想象,完成一个又一个挑战。

AI 写科幻剧本?科幻小说都不敢写

2018 年,在全球科幻电影节( Sci-Fi London Film Festival)上的一项名为“48 小时内电影创作挑战”(SFL 48 Hour Film Challenge)的活动中,来自纽约的导演 Oscar Sharp 和他在纽约大学 AI 研究院的同事 Ross Goodwin 利用人工智能(这套人工智能称自己为 Benjamin)创作出了一个剧本,并在 48 小时内将这个剧本拍摄出来了。虽然电影只有短短 9 分钟,但这也是世界上第一部由 AI 创作并拍摄出来的电影,这在以前是科幻小说都不敢写的故事。在此之后,人工智能在电影业中不断得到更多落地应用。现在,使用机器编写剧本的想法正在受到如 Netflix、Hulu、好莱坞等世界级影视科技公司的青睐。


人工智能剧本创作的关键技术—自然语言生成

而在使用人工智能进行影视剧本创作中,NLP 领域的自然语言生成技术是其中的关键技术之一。


但自然语言生成技术的应用场景和研究意义远不止于影视剧本创作。在电商场景下,可用于营销内容生成以及面向复杂问题回答与人机交互的自动文本生成;融媒体场景下,结合文本与语音合成技术可应用于新闻自动播报、直播文字、多语言/跨语言自动文摘。


相关内容可点击查看:


➡️京东商城背后AI技术揭秘(一)——基于关键词自动生成摘要


➡️京东商城背后AI技术揭秘(二)——基于商品要素的多模态商品摘要

NLP 最高级别学术认可— ACL 论文收录

近日,ACL 2020 公布了今年大会的论文录用结果。ACL 会议是 NLP 领域级别最高的国际学术会议,致力于推动自然语言处理相关研究的发展和国际学术交流。


根据官方公布的数据,本届大会共收到 3429 篇投稿论文,投稿数量创下了所有 ACL 旗下会议新高。ACL  除了在国际 AI 学界具有顶级影响力外,其审稿规范和审稿质量,也是当今 AI 领域国际顶级会议中公认的翘楚,论文被录取的难度十分高。以 2019 ACL 为例,论文录取率仅为 22.7% 。因此,研究论文能够被 ACL 录用,不仅意味着研究成果得到了国际学术界的认可,也证明了研究本身在实验严谨性、思路创新性等方面的实力。


京东 AI 研究院专注于持续性的算法创新,80% 的研究都由京东实际的业务场景需求为驱动,聚焦 NLP 语音、计算机视觉、机器学习(包括深度学习和强化学习)等领域。在 ACL 2020 中,京东 AI 研究院提交的多篇论文经过重重审核,最终被大会收录。


今天,我们就将为大家解读其中的一篇:Self-Attention  Guided  Copy Mechanism for  Abstractive  Summarization


论文对现有自动文摘的研究方法进行了优化,使通过该新模型生成的摘要内容更加精确。

论文解读

摘要

自动文本摘要(简称“自动文摘”)是自然语言处理领域中的一个传统任务,其目的是为输入文本生成一段简化文本。常用的自动文摘方法包括抽取式自动文摘(Extractive Summarization)和生成式自动文摘(Abstractive Summarization)。抽取式自动文摘方法抽取输入文本中的原始句子组成摘要;生成式自动文摘方法利用自然语言生成技术生成摘要。


自动文摘模型的关键是准确识别出输入文本中的重要信息,并输出涵盖这些信息的流畅文本。抽取式自动文摘方法可以显式的对输入文本的每个句子的重要性进行建模,但是输出的摘要是通过拼接句子构成的,句间的流畅性无法得到保证。生成式自动文摘方法通常可以输出较为流畅的摘要,但是有时无法完全准确捕捉到输入文本中的重要的信息。


本文所介绍的是自动文摘模型提出了一种自注意力(Self-Attention)指导的复制机制,该方法融合了抽取式自动文摘方法和生成式自动文摘方法,在多个文本摘要数据集上取得了比对比模型更好的性能。


我们首先介绍一下一些相关背景知识,包括自注意力机制,复制机制和抽取式自动文摘方法 TextRank 算法。

算法及模型

《Attention is all you need》提出了基于自注意力机制的 Transformer 框架,在机器翻译任务上超过了当时其他的模型。简单来说,自注意力机制将文本中的词两两计算相似度,然后对这些相似度进行归一化得到权重矩阵,最后将这些权重和相应的词进行加权求和得到下层的隐层表达。


复制机制是自动文摘模型中的一个常用机制。传统的文本生成在计算生成每个词的概率时,所有的词被限制在一个固定大小的词表中,即生成的词必须来自于这个固定大小的词表。复制机制除了会在这个固定大小的词表中生成某个词,还会选择性的在输入文本中选择一个词,这个词不受词表限制。复制机制实际上和人类在做摘要时的逻辑相吻合,即输入文本中的某些词,尤其是那些关键词,组成了这个文本的主干。我们只需要将这些关键词从输入中“复制”到输出中,然后再做一个适当的加工,使输出的摘要更加自然。复制机制的动机就是自动识别出这些关键词,然后将其“复制”到输出摘要中。TextRank 算法一种基于图模型的经典抽取式自动文摘方法,其基本思想来源于谷歌的 PageRank 算法。TextRank 算法通常会把输入文本分割成若干基本单元并建立图模型, 利用基本单元间关系组成的邻接矩阵进行随机游走,获得各基本单元的入度中心度得分,基于该得分可以对文本基本单元进行排序。


回到主线,本文提出的模型是基于自注意力机制的 Transformer 模型,并融入了复制机制,即每个词的输出概率为生成概率和复制概率的加权相加:   



其中 



 为生成模式的权重



为生成概率


为复制概率,本文采用了编码器-解码器之间的注意力权重



  作为复制概率:  



其中



 是解码器时刻的隐层状态,



是编码器第个输入对应的隐层状态,



为隐层状态维度


上文提到,自动文摘模型希望通过复制机制将输入文本中的重要词复制到输出中,但由于使用注意力权重作为复制概率,并不能显式地识别出哪些词是重要的词。我们需要找到一个合适的方式显式地为输入文本中的词的重要性进行打分,进而指导模型的复制机制,改善复制的效果。TextRank 算法利用邻接矩阵计算输入文本中每个词的重要性得分。


我们注意到,Transformer 模型的自注意力机制提供了输入文本中的词两两之间的权重,该权重矩阵可以作为 TextRank 算法的邻接矩阵。基于这个邻接矩阵,通过随机游走,我们可以得到输入文本中的词的入度中心度得分,以此作为词的重要性得分



进而指导复制概率,公式如下:



此外,我们还尝试了利用出度中心度得分指导复制概率的方法。


进一步地,我们还将  加入到损失函数中,使重要的词得到模型足够的“重视”,即:


原始的损失函数为:



我们改进的损失函数为:


实验结果

我们提出的模型在文本摘要数据集 CNN/DailyMail 和 Gigaword 上取得了比对比模型更好的性能。


CNN/DailyMail数据集实验结果对比


Gigaword数据集实验结果对比


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-05-09 07:003161

评论

发布
暂无评论
发现更多内容

Nautilus Chain 引入 $NAUT 通证,延续 $ZBC 的价值

威廉META

蓝易云:Ubuntu系统中找不到yum及安装方法!

百度搜索:蓝易云

云计算 Linux ubuntu centos yum

中国GPT用户的第三阶段:揭秘你不知道的道与术

豆哥

ChatGPT 文心一言

ChatGPT 掐网线,文心一言打太极:马斯克说得不错,这是要造反啊

豆哥

AI 马斯克 ChatGPT 文心一言 灵魂拷问

Nautilus Chain 引入 $NAUT 通证,延续 $ZBC 的价值

股市老人

红巨人调色降噪插件合集:Red Giant Magic Bullet Suite 最新激活版

mac大玩家j

Mac软件 视频处理工具 红巨星降噪插件

国产GPT到底哪家强?看看专家怎么选

豆哥

AI 评测 ChatGPT 文心一言 国产大模型

蓝易云:Linux Debian11服务器安装SSH,创建新用户并允许SSH远程登录,及SSH安全登录配置!

百度搜索:蓝易云

运维 SSH 云服务器 计算 Debian

少林寺、玄武湖景区签约、鲸鱼陪诊上架元服务,鸿蒙生态共繁荣

最新动态

2024山西智博会,山西国际人工智能,物联网,大数据展览会

AIOTE智博会

人工智能展会 人工智能展 山西智博会

Arbitrum 公链 arb 代币质押项目挖矿系统开发

l8l259l3365

方便的音频控制软件 SoundSource 免激活最新版

胖墩儿不胖y

音频编辑 音频处理工具 编辑音频 音频控制

Nautilus Chain 引入 $NAUT 通证,延续 $ZBC 的价值

EOSdreamer111

Nautilus Chain 引入 $NAUT 通证,延续 $ZBC 的价值

西柚子

谁在利用虚拟人做局?

自象限

电商直播 虚拟人

开启企业数字化转型新篇章,华为云828企业节来了

YG科技

Nautilus Chain 引入 $NAUT 通证,延续 $ZBC 的价值

鳄鱼视界

Kafka的灵魂伴侣Logi-KafkaManger(3)之运维管控--集群列表

石臻臻的杂货铺

kafka

两届 TOKEN 2049 之间,孙宇晨和波场的布局与野心

股市老人

测试团队绩效考核的关键指标

老张

OKR 绩效考核

Nautilus Chain 引入 $NAUT 通证,延续 $ZBC 的价值

EOSdreamer111

在HTML里,attribute和property有什么区别?

Lee Chen

前端

华为828 B2B企业节,开启企业数字化转型新篇章

YG科技

我设计的专注背单词小程序更新了,欢迎交流功能UI设计

一点点小创意

技术 产品设计 用户体验 页面布局 色彩搭配

秒合约交易系统app开发,微交易系统开发

V\TG【ch3nguang】

数字货币合约交易系统开发

V\TG【ch3nguang】

Kafka灵魂伴侣Logi-KafkaManger(4)之运维管控–集群运维(数据迁移和集群)

石臻臻的杂货铺

kafka

打工人要的安慰,GPT 给不了

豆哥

AI 打工人 ChatGPT 工具人 自我意识

学习 CodeWhisperer 的一些总结

亚马逊云科技 (Amazon Web Services)

Java 人工智能

2023-09-16:用go语言,给你一个整数 n 和一个在范围 [0, n - 1] 以内的整数 p , 它们表示一个长度为 n 且下标从 0 开始的数组 arr , 数组中除了下标为 p 处是 1

福大大架构师每日一题

福大大架构师每日一题

Kafka的灵魂伴侣Logi-KafkaManger(5)之运维管控–平台管理(用户管理和平台配置)

石臻臻的杂货铺

kafka

NLP带来的“科幻感”超乎你的想象 | 京东ACL2020论文解读_AI&大模型_京东AI研究院_InfoQ精选文章