NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

BERT 为什么是 NLP 的革新者

  • 2020-09-18
  • 本文字数:1765 字

    阅读完需:约 6 分钟

BERT为什么是NLP的革新者

本文最初发表在 Towards Data Science 博客,由 InfoQ 中文站翻译并分享。


语言模型 BERT 可以大幅提升许多任务的性能,那么它成功的背后是什么呢?

什么是 BERT?

BERT,全称 Bidirectional Encoder Representation from Transformers,是一款于 2018 年发布,在包括问答和语言理解等多个任务中达到顶尖性能的语言模型。它不仅击败了之前最先进的计算模型,而且在答题方面也有超过人类的表现。


BERT 是一个可以将文字转换为数字的计算模型。这个过程是至关重要的,因为机器学习模型需要以数字而非文字为输入,而一款可以将文字转换为数字的算法让人们可以直接使用原始的文本格式数据训练机器学习模型。



BERT 是可以将文字转换为数字的计算模型,图源Devlin et al., 2019

BERT 为何如此优秀?

对作者来说,BERT 的优秀之处主要在于以下三点:


  • 第一:使用大量数据预训练

  • 第二:可以处理文字语意

  • 第三:开源

1:BERT 使用海量数据预训练

BERT 提供两种不同大小模型,BERT-base(使用 BookCorpus 数据集训练,约 8 亿字)以及 BERT-large(使用英文维基百科训练,约 25 亿字)。两种模型均使用了巨大的训练集,而任何一个机器学习领域的人都明白,大数据的力量是相当无敌的。正所谓“熟读唐诗三百遍,不会做诗也会吟”,在见过 25 亿单词之后,再看到新单词时你也能猜到它会是什么意思。


因为 BERT 的预训练非常优秀,所以即使是应用在小型数据集上也能保持不错的性能。举例来说,作者最近参与了一个开发新冠(COVID-19)自动问答系统的项目,在没有进一步微调的情况下,BERT-base 在作者使用的数据集中的 15 个类别上,准确率达到 58.1%。更令人惊叹的时,“COVID”这个词甚至不在 BERT 的词汇库中,但它依然获得了相当高的准确率。

2: BERT 可以处理语意

之前的词嵌入方法,无论一个词处于什么样的语境下,都会返回同一个向量。而 BERT 则会根据上下文,为同一个词返回不同的向量。例如,在下面的例子中,旧方法会为“trust”返回相同的嵌入。


I can’t trust you.(我不能相信你。)

They have no trust left for their friend. (他们对自己的朋友已经没有信任感。)

He has a trust fund. (他有一个信托基金。)


相比之下,BERT 可以处理语意,根据“trust”语境的不同返回不同的嵌入。如果算法可以分辨出一个词使用情况的不同,就能获得更多的信息,性能也有可能得到提升。另一个可以处理上下文的语言建模方法是ELMo

3:BERT 是开源的

开源是个大加分项。机器学习领域中的很多项目都被开源化,因为代码开源可以让其他的研究人员轻松应用你的想法,从而促进项目的发展。BERT 的代码发布在了GitHub上,同时还附有代码使用相关的 README 文件,这些深入信息对于任何想要使用 BERT 的人来说有很大帮助。


在作者最开始使用 BERT 时,只花费了几分钟下载能运行的 BERT 模型,然后只用不到一小时的时间成功写出可以用在数据集中的代码。


一个非常强大的语言模型会同时具备上文中提到的全部三个方面,而这个模型可以在 SQuAD、GLUE 和 MultiNLI 等大名鼎鼎的数据集上会达到最顶尖的性能。它所拥有的这些巨大优势是让它如此强大和适用的原因所在。


BERT 利用大量数据进行预处理,用户可以直接将其应用在自己相对较小的数据集上。BERT 有上下文嵌入,性能会很不错。BERT 是开源的,用户可以直接下载并使用。它的应用范围如此之广,这就是为什么说 BERT 彻底改变了 NLP。


谷歌的研究人员,也是 BERT 的最初创造者,计划利用它来理解谷歌搜索,并提高谷歌自动问答服务的准确性。后来人们发现,BERT 的用处不仅仅只局限于谷歌搜索。BERT 有望改善计算机语言学的关键领域,包括聊天机器人、自动问答、总结和文本情感分析。自一年多前 BERT 的发布以来,其论文的引用已超过 8,500 次,其广泛实用性不难看出。此外,自 BERT 发表后,最大的国际 NLP 会议 Association for Computational Linguistics(ACL)的投稿量也翻了一番,从 2018 年的 1544 篇直接增到 2019 年的 2905 篇。


BERT 将继续为 NLP 领域带来革命性的变化,它为小型数据库中各种类型的任务提供实现高性能的机会。


延伸阅读:


Devlin et al.原论文(https://arxiv.org/pdf/1810.04805.pdf


ELMo,使用上下文嵌入的类似语言模型:


https://arxiv.org/pdf/1802.05365.pdf


原文链接


https://towardsdatascience.com/bert-why-its-been-revolutionizing-nlp-5d1bcae76a13


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-09-18 08:001857
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 494.0 次阅读, 收获喜欢 1967 次。

关注

评论

发布
暂无评论
发现更多内容

Mac电脑视频处理软件 VideoProc Converter 4K直装中文版

胖墩儿不胖y

Mac软件 视频处理工具 视频工具

Infuse for Mac(音视频播放器) 7.6.1完整激活版

mac

苹果mac Windows软件 Infuse 多媒体播放软件

玩转HarmonyOS专项测试,轻松上架“五星”高品质应用

HarmonyOS开发者

技术干货:解密最受欢迎的开源 Serverless 框架弹性技术实现

阿里巴巴云原生

阿里云 开源 Serverless 云原生

公链项目开发 靠谱技术团队按期源码交付

西安链酷科技

区块链开发 公链开发

合约开发 - DAPP开发 - swap开发

西安链酷科技

智能合约 去中心化网络 DAPP系统开发

Spring扩展-Aware

关于企业如何替换FTP和加速FTP的问题

镭速

替换FTP 加速FTP

为什么都在说实时数据传输?

RestCloud

ETL 实时数据 CDC

如何使用CSS和JavaScript实施暗模式?

互联网工科生

CSS JavaScript 暗模式

9月《中国数据库行业分析报告》已发布,47页干货带你详览 MySQL 崛起之路!

墨天轮

MySQL 数据库 oceanbase 国产数据库 StoneDB

OpenHarmony Meetup深圳站招募令

OpenHarmony开发者

软件测试/测试开发丨ChatGPT自动生成基于PO的数据驱动测试框架

测试人

Python 人工智能 软件测试 数据驱动 ChatGPT

智慧地球质押挖矿系统开发详情

l8l259l3365

软件开发项目管理体系,支撑体系,测试体系文档大全

金陵老街

专家观点∣小议事项会计兼评用友事项会计中台产品

用友BIP

事项会计 冶金

Java-WebSocket vs Netty-WebSocket 资源占用

FunTester

【问题记录】Nginx使用域名作为upstream时,需要配置SNI

陈德伟

nginx 虚拟主机 proxy_pass SNI

“套壳”OpenAI,注定消亡!全球首个 20 万字大模型发布丨 RTE 开发者日报 Vol.63

声网

人工智能 RTE 实时互动

Spring扩展-BeanFactoryPostProcessor

国内区块链技术团队、项目开发、包装宣传推广

西安链酷科技

推广计划 区块链技术开发

动力电池电芯正负极缺陷检测

矩视智能

深度学习 机器视觉

2.0版本佛萨奇系统开发(源码搭建)

V\TG【ch3nguang】

设计行业中如何保证图纸设计稿在数据传输中不会泄密

镭速

数据传输 文件传输

文心一言 VS 讯飞星火 VS chatgpt (110)-- 算法导论10.2 1题

福大大架构师每日一题

福大大架构师每日一题

GitHub下载量从19暴涨到5W,这份架构师学习路线只用了一晚

程序员万金游

学习资料 #java #编程 #程序员 #学习

dapp应用开发-DAO/DApp项目开发-NFT项目搭建

西安链酷科技

区块链 dapp开发 质押挖矿系统开发

链游开发、web3.0入局、加密货币游戏

西安链酷科技

gamefi Web3 游戏 链游开发

ido预售官网、私募网站开发 代币发售、智能合约项目 任意链任意机制模式

西安链酷科技

IDO代币预售

CHM文件阅读器 CHM Viewer Star 免激活最新版

mac大玩家j

Mac软件 文件阅读器 文件管理软件

IDO官网预售 设置您的IDO:开始您的IDO开发之旅

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 IDO代币预售

BERT为什么是NLP的革新者_AI&大模型_Jerry Wei_InfoQ精选文章