上海架构师集结!4月25-26日,全球架构师峰会首次落地上海,吴翰清、汪源、叶绍志等大咖确认出席 了解详情
写点什么

为什么预训练语言模型 ELMo 是 NLP 的最大进步之一?

2020 年 10 月 22 日

为什么预训练语言模型 ELMo 是NLP的最大进步之一?

本文最初发表于 Medium 博客,经原作者 Jerry Wei 授权,InfoQ 中文站翻译并分享。


ELMo,是来自语言模型的嵌入(Embedding fromLanguageModels)的缩写,这是一种最先进的语言建模思想。是什么让它如此成功?


2018 年发表的论文《深度上下文的词嵌入》(Deep Contextualized Word Embeddings),提出了语言模型嵌入(ELMo)的思想,在问答、情感分析和命名实体提取等多项热门任务上都实现了最先进的性能。事实证明,ELMo 可以带来高达 5% 的性能提升。但是,是什么让这个想法如此具有革命性呢?


ELMo 是什么?

Elmo 不仅仅是一个木偶人物玩具的名字,而且 ELMo 还是一个强大的计算模型,可以将单词转换成数字。这一重要的过程允许机器学习模型(以数字而不是单词作为输入)可以在文本数据上进行训练。


为什么 ELMo 这么厉害?

当我通读原始论文时,有几个主要观点引起了我的注意:


  1. ELMo 解释了单词的上下文。

  2. ELMo 是基于大型文本语料库进行训练的。

  3. ELMo 是开源的。


让我们详细讨论一下这些要点,并讨论它们的重要性。


1. ELMo 可以唯一地解释单词的上下文

像 GloVe、词袋和 Word2Vec 只是根据单词的字面拼写生成嵌入。它们不会考虑单词的使用方式。例如,在下面的示例中,这些语言模型将为“trust”返回相同的嵌入:


I can’ttrustyou.

They have notrustleft for their friend.

He has atrustfund.


然而,ELMo 会根据其周围的单词,返回不同的嵌入:其嵌入是上下文相关的。在这些示例中,它实际上会返回“trust”不同的答案,因为它会识别出该词在不同的上下文中使用。这种独特的能力本质上意味着 ELMo 的嵌入有更多的可用信息,因此性能可能会提高。一种类似的解释上下文的语言建模方法是BERT


2. ELMo 是基于大型文本语料库训练的

无论你是一名资深的机器学习研究者,还是一名普通的观察者,你都可能熟悉大数据的威力。最初的 ELMo 模型是在 55 亿个单词的语料库上进行训练的,即使是“小”版本也有 10 亿个单词的训练集。这可是一个很大的数据量啊!在如此多数据上进行训练,意味着 ELMo 已经学习了很多语言知识,在大范围的数据集上都会有不错的性能。


3. 任何人都可以使用 ELMo

推动机器学习领域发展的因素是将研究予以开源的文化。通过将代码和数据集开源,研究人员可以让该领域的其他人轻松地应用并构建现有的想法。与这种文化相一致,ELMo 是广泛开源的。它有一个网站,不仅包括它的基本信息,还包括了模型的小版本、中版本和原始版本的下载链接。想使用 EMLo 的人一定要看看这个网站,来获取模型的快速拷贝。此外,该代码还发布在GitHub上,并包括一个相当详尽的自述文件,让用户知道如何使用 ELMo。如果有人花了几个小时的时间才能让 EMLo 模型正常运行,我会感到很惊讶。



ELMo 在著名的任务上取得了最先进的性能,如 SQuAD、NER 和 SST


作为上下文感知词嵌入和大数据的强大组合,ELMo 在自然语言处理中的大数据集(包括 SQuAD、NER 和 SST)上取得了最先进的性能。ELMo 彻底改变了我们处理计算语言学任务的方式,比如问答和情感检测,这显然是该领域的一个关键进展,因为原始论文已被引用了 4500 多次。此外,在发表 ELMo 的论文后,提交给最大的国际自然语言处理会议——计算语言学协会(Association for Computational Linguistics,ACL)会议收到的投稿量翻了一番,从 2018 年的 1544 份增加到 2019 年的 2905 份(不过这也可能是由于 2019 年初发表的 BERT)。


我还要指出的是,ELMo 和 BERT 非常相似,因为它们都来自芝麻街(译注:Elmo 和 Bert 都是美国经典动画片《芝麻街》的角色)!好吧,它们都是解释单词上下文的语言模型,都是基于大型数据集进行训练的,并且正如给我们所知的自然语言处理领域带来了革命性的变革。我还写了一篇关于 BERT 的博文,如果你有兴趣的话,可以读一读。


ELMo 是自然语言处理最大的进步之一,因为它本质上是第一个关注上下文的语言模型,允许在多种任务中实现更好的性能。


延伸阅读



作者介绍:

Jerry Wei,对人工智能,尤其对医学图像分析和自然语言处理感兴趣。


原文链接:


https://towardsdatascience.com/elmo-why-its-one-of-the-biggest-advancements-in-nlp-7911161d44be


2020 年 10 月 22 日 08:00765
用户头像
刘燕 InfoQ记者

发布了 509 篇内容, 共 157.7 次阅读, 收获喜欢 950 次。

关注

评论

发布
暂无评论
发现更多内容

不得不了解系列之限流

梦朝思夕

限流

云原生技术采用增加,全球60%后端开发人员都在使用容器 | 趋势分享

博云技术社区

云计算 容器 云原生 PaaS 博云

GrowingIO AWS 成本优化之路

GrowingIO技术专栏

AWS 成本优化

硬核科技:莱克立式吸尘器,引领家居清洁“新态度”

InfoQ_967a83c6d0d7

我也没想到 Springboot + Flowable 开发工作流会这么简单

程序员内点事

java 14

新金融分布式架构之SOFAStack解决方案

阿里云金融线TAM SRE专家服务团队

全民加速节:动态加速在在线教育应用上的最佳实践

阿里云Edge Plus

在线教育 CDN

柔性电子拥有改变地球的能力吗?

脑极体

Redis系列(二):Redis的5种数据结构及其常用命令

简爱W

温故知新——Spring AOP(二)

牛初九

spring aop ioc

莱卡、宾利都在用,英特尔oneAPI渲染工具带来高质量视觉体验

intel001

Redis系列(一):Redis简介及环境安装

简爱W

GitMaster 更新v1.9.0,支持Gitea,Gist拥抱黑暗模式

neo

gitlab tree gitee GitHub、

软件开发丨关于软件重构的灵魂四问

华为云开发者社区

软件 开发者 软件开发 代码 软件重构

Docker 镜像构建之 Dockerfile

哈喽沃德先生

Docker 容器 微服务 容器技术 容器化

币期权DAPP 8月28日全球同步耀世上线,掀起币圈追捧热潮

InfoQ_967a83c6d0d7

华为云会议的前世今生

华为云开发者社区

直播 云服务 华为云 视频编码 视频会议

Flink-键值分区状态-10

小知识点

scala 大数据 flink

难以遏制的人因差错-Go的日志工具之痛

田晓亮

go 微服务

性能相关,内存

Linuxer

性能

CRM企业到底该不该做PaaS?

ToB行业头条

PaaS SaaS CRM

usdt承兑跑分系统开发,区块链支付跑分系统搭建

WX13823153201

usdt承兑跑分系统开发

MySQL redo与undo日志解析

Simon

MySQL Redo MySQL日志

LeetCode题解:155.最小栈,使用两个栈,详细注释

Lee Chen

LeetCode 前端进阶训练营

炒股不要看K线图(分享最近学习投资的一点心得)

Nick

投资 理财

从6大应用场景,看边缘计算落地生根

博云技术社区

边缘计算 PaaS 容器云 云平台 博云

oeasy教您玩转linux010106这儿都有啥 ls

o

“全球+”浪潮下,企业出海选择合适的“技术船舶”成关键

华为云开发者社区

网络 华为云 企业出海 网络加速 宽带

Luajit字节码分析之KSTR

whosemario

lua

零代码简史

明道云

SaaS

面经手册 · 第7篇《ArrayList也这么多知识?一个指定位置插入就把谢飞机面晕了!》

小傅哥

Java 数据结构 小傅哥 面试题 ArrayList

OCR技术的未来发展与演进

OCR技术的未来发展与演进

为什么预训练语言模型 ELMo 是NLP的最大进步之一?-InfoQ