东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

2021 , NLP 大事记

  • 2022-01-12
  • 本文字数:3553 字

    阅读完需:约 12 分钟

2021 , NLP大事记

2021 刚刚过去,该盘点一下自然语言处理领域这一年来的高光时刻了</preface>


在过去的一年里,自然语言处理(NLP)领域发生了很多事情,本文将从作者的视角出发盘点一下一年来的行业亮点。

太长不看版


读者很忙的话可以先看下面这一段:


  • 如果你只打算阅读一篇今年发表的关于 NLP 的文章,那就读这一篇:The Chatbot Problem ,纽约客发文。

  • 如果你只打算读一篇今年发表的论文,我强烈推荐《论随机鹦鹉的危险:语言模型会大过头吗

  • 如果你只想花时间学习一门课程来了解最前沿的 NLP 技术,请学习 Hugging Face 的课程(免费!)

  • 如果你只想看一个关于 NLP 的视频,谷歌的这个LaMDA演示 是非常令人印象深刻的。

一月

我们先来看个有趣的东西:《果蝇可以学习词嵌入吗?》本文研究了生物学和神经网络之间的关系。虽然当下的这一代深度学习方法会从生物学中汲取高层灵感,但前者不一定符合生物学的理论。这就提出了一个问题,即生物系统是否可以进一步为新生网络架构和学习算法的开发提供灵感,从而显著提升机器学习任务的性能表现,或提供对智能行为的更多见解。


为此,研究人员使用了一个模拟的果蝇大脑,这是神经科学中研究最深入的网络之一。而且令人惊讶的是,事实上他们能够证明这个网络确实可以学习单词与其上下文之间的相关性,并生成高质量的词嵌入。

二月

要跟踪自然语言生成(NLG)的进展状况不是一件容易的事情,因为就其本质而言,NLG 任务没有正确与否的固定定义。为了克服这一挑战并跟踪 NLG 模型的进展,一个由来自 44 家机构的 55 名研究人员组成的全球项目提出了GEM(生成、评估和度量),这是一个以评估为重点的 NLG 动态基准环境。


GEM 项目的最终目标是实现对数据和模型的深入分析,而不是只靠单一的排行榜分数定高下。该项目通过跨越许多 NLG 任务和语言的 13 个数据集来度量 NLG 进展状况,希望它也可以为未来分别使用自动化和人工指标生成的文本提供评估标准。


研究人员已经向 NLG 研究社区开放了该项目,高级成员可以帮助新人做出贡献。GEM 基准测试放在 gem-benchmark.com 上,更多信息也可以在 Hugging Face 上的Dataset Hub 找到。

三月

免责声明:我为 AWS 工作,所以接下来这个主题我 100%会有偏见,但老实说我认为它非常酷:)


Hugging Face 和 AWS 之间的合作关系 从根本上改变了我的工作。我敢肯定,本文的读者肯定都很熟悉 Hugging Face。今年 3 月宣布的这一合作伙伴关系引入了新的 Hugging Face 深度学习容器(DLC),让人们可以更轻松地在 Amazon SageMaker 中训练和部署 Hugging Face Transformer 模型。


Philipp Schmid 提供的这个令人惊叹的 Github存储库可让你试用所有新功能,从分布式训练到模型部署和自动缩放等等。

四月

剑桥大学化学系和物理系于 4 月发表了一篇非凡的论文,其中描述了他们如何训练不同类型的语言模型。


研究人员使用序列嵌入(一种著名的 NLP 技术)将蛋白质序列转换为 200 维嵌入向量。可能你会有点疑惑,但 200 维确实被认为是这种复杂信息的低维表示!这项技术使团队能够训练一种新的语言模型,其性能优于使用公开可用数据集预测蛋白质液液相分离(LLPS)的几种现有机器学习方法。


我不会假装我很了解什么是 LLPS,但根据我的理解,它们是理解蛋白质分子语法和发现潜在错误的基础。这可能是癌症和神经退行性疾病(如阿尔茨海默病、帕金森病和亨廷顿病)研究取得突破的第一步。

五月

我很确定你曾在某个时候尝试过与你的某位智能家居助理做某种程度的对话。反正我是试过,而且对话从来没能持续多久。交谈一两次后,助理一般就没法把对话再延伸下去了,而且这种尝试通常会以令人沮丧的“我不确定我是否理解你刚才说的话”而告终。


在今年 5 月的谷歌 I/O 大会上,该公司宣布了其在对话式 AI 领域的最新进展,LaMDA(对话应用语言模型。它是一种会话语言模型,似乎能够进行更长时间的对话。他们在演示里与冥王星和纸飞机交谈,当然令人印象深刻。我们还要感谢他们告诉大家该模型仍处于早期阶段,并指出了它的一些局限性。我非常希望谷歌在某个时候发布一个可以试玩的版本。

六月

如果你喜欢弱小的新手对抗强大权威的故事,那么这个可能很适合你:


这是 Connor Leahy 和 Leo Gao 之间的交流,后者创立了 EleutherAI,一个由志愿者研究人员、工程师和开发人员组成的去中心化草根集体,专注于 AI 对齐、扩展和开源 AI 研究。他们成立于 2020 年 7 月,其旗舰项目是 GPT-Neo 系列模型,旨在复制 OpenAI 开发的 GPT-3 模型。他们的 Discord服务器是开放的,欢迎贡献者。


6 月,他们发布了最新模型 GPT-J,有 60 亿个参数,而 GPT-3 有 1750 亿个。尽管体积小得多,但 GPT-J 在诸如编写代码之类的专业任务中表现优于它的庞大表亲。


我发现这种趋势非常令人鼓舞,并且很期待看到 EleutherAI 的下一步发展。

七月

7 月,纽约客发表了一篇关于语言模型偏见的文章。这在 NLP 社区中并不是一个新话题。然而,像纽约客这样的杂志会讨论这样的话题,凸显了现代 NLP 模型的重要性和它们引发的社会担忧。这让我想起了 2020 年卫报关于 GPT-3 的文章——这是小众话题被主流媒体注意到的经典时刻


纽约客的文章侧重于语言模型如何反映我们的语言并最终反映我们自己的喜好。尤其是这句话让我印象深刻:“我们被迫以技术问题的形式来面对人类的终极隐秘:我们对内心的黑暗知之甚少,我们对黑暗的控制力又是如此微弱。”

八月

下一个故事与纽约客的文章引起了类似的共鸣,因为 Margaret Mitchell 在八月加入了 Hugging Face。在 2021 年 2 月被解雇之前,Mitchell 是谷歌伦理 AI 研究员。她与他人合著了(以她的笔名 Shmargaret Shmitchel)一篇关于大型 NLP 模型相关成本和风险的论文


我们已经意识到了与追求更大的 LM 相关的各种成本和风险,包括:环境成本(主要来自那些无法从技术成果中受益的各方);财务成本,这反过来又设置了进入壁垒,限制了可以为该研究领域做出贡献的人群数量,以及可以从最先进的技术中受益的语言种类;机会成本,因为研究人员会将精力从需要较少资源的方向上抽走;如果人类将看似连贯的 LM 输出视为可以对所说内容负责的某个人或组织发表的言论,那么还会存在重大伤害的风险,包括成见、诋毁、助长极端主义意识形态和错误逮捕等。我很高兴看到 Mitchell 加入 Hugging Face,这是一家推动开源机器学习和繁荣社区的公司。如果你想更多地了解她在 Hugging Face 的工作,请查看她的视频,了解在开发机器学习项目时要牢记的价值观。

九月

说到开源 NLP,Explosion 也度过了美好的一年。这是spaCy背后的公司,它是最受欢迎的 NLP 库之一。9 月,他们通过 1.2 亿美元的估值在 A 轮融资中筹集了 600 万美元。


我不得不承认,我在 2021 年没有跟上 spaCy 的最新动态,因为我主要专注于在 Transformers 库中提升自己的技能。所以,我很惊讶地看到 spaCy 今年早些时候发布的 spaCy 3.0 包含了那么多新特性。我肯定会在 2022 年再次将注意力转向 spaCy。


Explosion 不仅提供了最流行的 NLP 库之一,还创建了Prodigy ,一种现代注释工具。这很重要,因为创建更好模型的一种潜在方法是首先创建更好的训练数据——这就是数据注释工具派上用场的地方。


看到一位女性(Ines Montani)成为一家人工智能公司的 CEO 也是很不错的趋势信号:)

十月

10 月举行了2021年NLP峰会。本次会议展示了众多 NLP 最佳实践、真实案例研究、在实践中应用深度学习和迁移学习的挑战——以及你今天可以使用的最新开源库、模型和转换器。


许多 NLP 圈内知名的演讲者在本次会议中上台发言,其中一些亮点有:


  • 我们为什么以及应该如何关心 NLP 伦理?

  • 科学文献的极致总结

  • 利用人工智能进行招聘以实现经济复苏你可以在他们的网站 上按需访问所有演讲。

十一月

Hugging Face 度过了相当不错的一年,我不得不再提一次。11 月,该公司发布了他们课程 的第二部分,帮助你快速开始使用最先进的 NLP 模型。本课程将带你踏上一段学习旅程,首先从高级 Pipeline API 开始,该 API 可让你通过两行代码利用 NLP 技术。然后它逐渐深入到 Transformers 堆栈中——在你意识到之前,你已经从头开始创建出自己的语言模型了。


第二部分于 11 月推出,一同发布的还有一系列讲座和讨论,你可以在此处找到它们

十二月


本文的最后一部分自然也提供了对 NLP 领域未来发展的展望。12 月,Louisa Xu 在福布斯发表了她关于自然语言黄金时代的文章。这是一篇很棒的文章,介绍了目前最有影响力的三家 NLP 公司。她的总结和观点写得很好,我这里就摘录一段她的原文:


每家能从语言中获得价值的公司都将从 NLP 中受益,NLP 是机器学习中最具变革潜力的分支。语言是我们几乎所有互动活动中的最小公约数,在过去三年中,我们从语言中获取价值的方式发生了巨大变化。NLP 的最新进展成果在提升业务绩效方面具有巨大潜力。它甚至有望为我们的在线互动带来信任和诚信。很多大型企业已率先加入,但真正的前景将体现在下一波 NLP 应用程序和工具中,这些应用程序和工具会将围绕人工智能的那些宣传从意识形态转变为现实成果。


原文链接:


https://towardsdatascience.com/a-2021-nlp-retrospective-b6f51e60026a

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2022-01-12 11:194644
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 492.5 次阅读, 收获喜欢 1966 次。

关注

评论

发布
暂无评论
发现更多内容

让AI上车,车企如何借势2023上海国际车展硬核出圈

Geek_2d6073

如何开发基于电报的TRX交易机器人?源码曝光

加密先生

彻底搞懂贝叶斯的本质

侠之大者

机器学习 贝叶斯公式 概率论

模块八作业

张贺

架构训练营

终于说有人清楚了BI仪表板和大屏的区别

搞大屏的小北

数据分析 数据可视化 数据大屏 仪表板 可视化展示

实践,制作一个高扩展、可视化低代码前端,详实、完整

悠闲的水

前端 低代码 前端框架 低代码开发 低代码平台

ListView Item多布局的实现

二哈侠

ListView item QQ界面

「中华田园敏捷开发」,是老板无能还是程序员无力?

引迈信息

前端 敏捷开发 后端 低代码

电商 SaaS 全渠道实时数据中台最佳实践

Apache Flink

大数据 flink 实时计算

一图读懂《2023 年全球互联网通信云行业研究报告》

融云 RongCloud

互联网 通讯 图片资源

Swift 里 的 Struct 和 Class

刿刀

CleanMyMac X4.20免费版Mac系统垃圾清理工具

茶色酒

CleanMyMac X

【深度挖掘RocketMQ底层源码】「底层问题分析系列」深度挖掘RocketMQ底层那些导致消息丢失的汇总盘点透析([REJECTREQUEST]system busy, start flow control for a while)

洛神灬殇

RocketMQ OOM 消息队列 3月日更

虚拟主机和云服务器的区别

天翼云开发者社区

适配PyTorch FX,OneFlow让量化感知训练更简单

OneFlow

人工智能 深度学习

电商平台的商品价格管理的产品设计

产品海豚湾

产品设计 SaaS 商品管理 电商 产品分析

研发提效利器:聊聊mock服务化

老张

Mockito 服务化 Mock

微服务为什么要用到 API 网关?

API7.ai 技术团队

原因码与ACK--MQTT 5.0新特性

EMQ映云科技

物联网 IoT mqtt 企业号 3 月 PK 榜 原因码

AI for Good | 从女性力量,到AI公平

澳鹏Appen

人工智能

150行代码创建一个多签钱包,智能合约实战项目

加密先生

智能合约 DAPP智能合约交易系统开发 多签钱包

企业内部即时通讯软件,提供安全的组织管理和办公协作方式

WorkPlus

API 网关日志的价值,你了解多少?

API7.ai 技术团队

WorkPlus|可定制、可扩展的私有化即时通讯办公平台

WorkPlus

前端开发框架React技术如何与小程序结合,进行页面构建

兴科Sinco

小程序 taro 前端开发 前端框架 React Native

周六直播|StarRocks 参与数据湖架构峰会,揭秘最新湖仓分析新范式!

StarRocks

数据库 大数据

从 1 秒到 10 毫秒!在 APISIX 中减少 Prometheus 请求阻塞

API7.ai 技术团队

openEuler加入RISC-V Landscape

openEuler

Linux 操作系统 openEuler risc-v

OpenAI竞争对手Anthropic融资:1融资易估值难2背后谷歌云3侧重安全

B Impact

从新手小白到运维大咖,SysOM 多场景宕机实例解析 | 龙蜥技术

OpenAnolis小助手

运维 操作系统 服务器 龙蜥技术 SysOM

数据资产与勒索病毒之间,华为立起一张安全盾牌

脑极体

安全

2021 , NLP大事记_AI&大模型_Heiko Hotz_InfoQ精选文章