最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

深度迁移学习在 NLP 中的应用:选 BERT 还是被评逆天的 GPT 2.0?

  • 2019-12-04
  • 本文字数:5080 字

    阅读完需:约 17 分钟

深度迁移学习在NLP中的应用:选BERT还是被评逆天的GPT 2.0?

迁移学习是什么?前百度首席科学家、斯坦福的教授吴恩达(Andrew Ng)曾经说过:迁移学习将会是继监督学习之后的下一个机器学习商业成功的驱动力。不可否认,机器学习在产业界的应用和成功主要是受监督学习、深度学习及大量标签数据集的推动。但是,当我们没有足够的来自于任务域的标注数据来训练可靠模型时,应该怎么办?在AICon大会现场,InfoQ 采访了百分点首席算法科学家苏海波,聊聊深度迁移学习在 NLP 中的应用实践以及被评效果逆天的 GPT 2.0 到底咋样?


为什么需要迁移学习?

过去几年,我们已经具备了将模型训练得越来越准确的能力,现今比较先进的模型在很多任务上已经达到了不错的效果,大幅降低了使用者的门槛。但这些模型的共同特点都是极其重视数据,依靠大量的标注数据才能实现理想的效果。


但是,在真实的业务环境中,标注数据往往是不足的,而且标注的代价比较高,迁移学习可以帮助处理这些场景,使机器学习在没有大量标注数据的任务域中规模化应用。那么,什么是迁移学习?迁移学习是指利用数据、任务或模型之间的相似性,将在旧领域学习过的模型,应用于新领域的一种学习过程。


概括来说,之所以需要迁移学习,是因为要解决以下四个问题:


  1. 深度学习和少标注之间的矛盾:目前深度学习只有在拥有充足标注数据的场景下,才能发挥它的威力。但是在实际的很多问题中,我们没有足够的标注数据,这时就需要迁移学习;

  2. 强算力与弱资源之间的矛盾:某些海量数据的模型训练任务,需要非常大的算力,大公司才能烧得起这个钱,而普通人的机器资源是很有限的,需要让他们也能利用这些数据和模型;

  3. 通用模型与个性化需求之间的矛盾:通用的模型可以解决绝大多数的公共问题,但是具体到个性化的需求,都存在其独特性,通用模型根本无法满足。因此,需要将这个通用的模型加以改造和适配,使其更好地服务于各种个性化需求;

  4. 特定应用的需求:现实世界的某些特定应用,例如个性化推荐,存在用户数据的冷启动问题,那么通过迁移学习则可以将相似领域的知识迁移过来。


迁移学习方法可以分为四类,包括基于样本的迁移学习方法、基于特征的迁移学习方法、基于模型的迁移学习方法和基于关系的迁移学习方法。在这四种方法中,苏海波表示,基于模型的迁移方法在深度神经网络里面应用的特别多,因为神经网络的结构可以直接进行迁移,这称之为深度迁移学习。

模型选择:BERT 还是 GPT 2.0?

在模型选择上,一边是被评效果逆天的通用语言模型 GPT 2.0,一边是结构与 GPT 1.0 类似,但突然爆红的 BERT,百分点是如何决策的呢?苏海波表示,在 2018 年 Google BERT 出现后,百分点就开始在各种 NLP 任务中广泛使用预训练模型技术,并进行持续的优化和改进,包括采用 Google TPU 解决算力的瓶颈、采用 BERT 和上层神经网络进行联合参数调优、采用 BERT 的各种优化模型和数据增强进行效果提升等方面进行探索和实践。


苏海波表示,百分点使用过 BERT 的很多改进版本,包括 XLNet、RoBERTa、ERNIE 等。从整体框架上来说,BERT 和 GPT 1.0 的结构非常类似,它们都包含预训练+Fine-tuning 两个阶段,但在预训练阶段,BERT 采取的是“双向语言模型”,GPT 1.0 采取的是“单向语言模型”,除此之外,二者在其它方面没有本质差异。


GPT 2.0 针对 1.0 做了改进,针对预训练的第一阶段,2.0 采取了更多的高质量训练数据及更大规模的 Transformer 模型,模型参数扩大到了 15 亿;针对第二阶段的 Fine-tuning,1.0 是进行有监督的下游任务,2.0 换成了无监督的下游任务。


GPT 2.0 相比 BERT 而言,因在第一个预训练阶段学到了非常多的通用知识和领域知识,自然语言生成的能力特别强,所以 GPT 2.0 刚推出来的时候,被网上盛传能续写小说或者红楼梦。苏海波补充道,GPT 2.0 的成功,对我们也带来一些启发:如果持续增加高质量的文本数据,就能够不断地让预训练模型学习到更多知识,从而进一步持续提升下游 NLP 任务的效果。这种技术思路是简单有效的,只要有足够的算力就可以实现。


在苏海波看来,BERT 是 NLP 世界的历史性突破,也是 NLP 未来的技术主流。BERT 优势非常明显,不仅在所有 NLP 测试任务都通用,均达到了 state of the art,效果显著提升,而且,BERT 结合了迁移学习的思想,相比传统的深度学习,大大减小了所需要的数据标注量。因在很多传统企业的实际应用场景中,往往标注数据量很少,因此 BERT 对 NLP 的实际应用落地起着非常显著的推动作用。


对于 BERT 的短板,一方面在于模型参数量上亿,需要消费的算力是比较大的,尤其是预训练模型的重新训练,对于一般的开发者而言,硬件资源成本和开发效率如何兼顾是需要考虑的问题。另一方面,BERT 根据上下文单词来预测被 MASK 掉的单词,但是在应用阶段是没有 MASK 标记的,因此在实际的 NLP 任务中,就面临训练过程和应用过程不一致的问题,导致 BERT 在生成类任务方面做的不太好。


此外,BERT 也面临线上服务预测性能问题,线上服务对性能的要求是比较高的,而 BERT 模型比较慢,百分点在实践中就遇到了这样的问题,尤其是在客户没有 GPU 的情况下,这个问题会更加严重。不过目前业界已经有一些 BERT 模型的轻量化解决方案,例如 Google 发布的 ALBERT 模型,百分点也正在开展这方面的研发工作。

深度迁移学习实践

踩坑:硬件成本高昂

早期,百分点通过购买 GPU 用于模型训练,后来发现这种模式根本不够用,这也是百分点实践过程中踩的第一个坑:算力不够。苏海波表示,由于 base 版本的 BERT 模型有 110M 参数,这样的模型即使仅仅根据任务 Fine-tuning 也需要比较长的时间,而重新训练则更是需要以天为单位计算。如果有多个 NLP 任务需要并行开发,完全依靠 GPU 硬件资源就会产生很大的开销成本。


另外,在基于预训练模型进行实际 NLP 开发时,会同时有多个任务进行,如果串行来做,需要花费大量时间等待;如果并行来做,消耗算力太大,硬件成本负担不起。因此,如何探索出一种高效省钱的研发模式是 NLP 算法研究员和工程师面临的普遍问题。百分点使用的方案是租用云上的 GPU 和 TPU 资源,既能控制好成本,又能提高模型的研发效率。


第二点是根据领域数据进行重新预训练。由于 Google 发布的中文 BERT 模型是基于维基百科数据训练得到,属于通用领域的预训练语言模型,对此,百分点加入领域数据进行重新训练,使模型更好地对该领域的语义进行建模。在情感分类和媒体审校等任务的实践中,百分点证明这种方法能进一步提升效果。

BERT:解决标注数据量较少问题

百分点最早在 2018 年就发现,预训练模型 BERT 的效果非常好,在效果验证后决定逐渐将所有算法功能模块全部基于 BERT 进行修改。


以短文本情感分类为例,苏海波表示,百分点原来应用的是卷积神经网络 CNN 模型。CNN 最早被应用于图像,后来也可以应用到文本的情感分析。CNN 主要由输入层、卷积层、池化层和全连接层构成,卷积的计算方式是相邻区域内元素的加权求和,与位置无关,实现了权值参数共享,池化层实现了空间采样,这些方式大大减小了神经网络的参数,避免模型过拟合。


在 BERT 出现之前,团队已经意识到 CNN 模型存在的问题。苏海波补充道,这种模式对标注数据的依赖太大,一个简单的情感分类需要上万条,甚至十几万条标注数据,工作量太大,且实验过程中发现很多场景下根本无法提供这么多标注数据。对比之下,深度迁移学习可以大大降低标注数据量,通过预训练模型和大规模通用性语料,在不需要大量标注数据的情况下就可以得到不错的效果,这是一个革命性创新。


如今,百分点已经在很多 NLP 技术模块中广泛应用 BERT,包括命名实体识别、情感分类、智能问答、NL2SQL 和自动纠错等,并且,这些功能也集成到了百分点的认知智能应用产品中,包括智能消费者洞察分析系统、智能检务问答系统、智能商业分析系统、智能媒体审核系统等等。苏海波表示,通过实践证明,相比传统的深度学习模型,BERT 确实大大减少了需要的标注数据量,带来了显著的效果提升。


比如,对于短文本的情感分类任务,BERT 模型在文本前插入一个[CLS]符号,并将该符号对应的输出向量作为这段文本的语义表示,用于情感分类,因为与文本中已有的其它字相比,这个无语义信息的符号会更“公平”地融合文本中各个字的语义信息,最终效果如下所示:



从上图可以看到两个模型随着训练数据的增加,情感分类的准确率都在不断提升。不过二者的对比差异也很明显,BERT 模型在训练集只有 1000 时,预测的准确率就达到了 90%;而 CNN 模型在训练集样本数到 100000 时,预测的准确率才只有 88.2%。这说明,深度迁移学习模型需要的标注样本数远远小于以往的深度学习模型,就能达到更好的效果。


由于 BERT 模型输入文本有 512 个字的限制,短文本分类比较直接,直接输入 BERT 模型即可。但针对长文本,如果直接截取前面的 512 个字,会有信息损失,那么该如何使用 BERT 模型呢?百分点的方案是将长文本进行平均截断,例如按照平均 6 段进行截断,划分为若干个短文本,然后输入对应的 BERT 模型或者各种变种,例如 RoBERTa、XLNet 等,然后再将输出的增强语义向量进行拼接,后面再接上 GRU 模型。



上图是百分点对标注数据集进行 5 折划分,通过交叉验证平均截断策略的效果。实验结果表明,用 RoBERTa+平均截断训练生成的模型的 F1 值均比 RoBERTa 版的模型高,表明长文本情感分类中,平均截断策略能有效提升预训练模型效果。



另外,百分点还采用了 post train 的方法提升模型的效果,实验结果证明,在每一份数据上,RoBERTa+ Post train 结合的 F1 和 Acc 均比 RoBERTa 版的模型高,所以在长文本情感分类中,Post train 策略能有效提升预训练模型效果。

实践总结:对 NLP 开发者的三点建议

经过一番前沿探索,苏海波对开发者提出了一些建议:一是注意硬件成本,可以考虑云上租用资源的方式;二是如果对性能要求特别高,需要对 BERT 做一些改进和方案上的优化;三是 BERT 本身采用双向语言模型,可能会出现训练和预测不一致的现象。


RoBERTa 是 Facebook 推出的 BERT 改进方案,采用更多的数据、改进的训练技巧及更长的训练时间。ERNIE 是百度推出的预训练模型,扩展了中文训练语料,而且针对中文的词和实体等语义单元进行建模。百分点在中文情感分类等任务上均用过 RoBERTa 和 ERNIE,效果比 BERT 要好一些。


针对第三个问题,现在也有很多变种在解决这些问题,比如 XLNet。苏海波介绍道,XLNet 是 CMU 和 Google 大脑推出的 BERT 改进方案,进行了 Permutation Language Model 的理论创新,增加预训练数据的规模,采用 Transformer-XL 编码器。因此,在长文档任务(例如阅读理解)和生成类任务的效果比 BERT 表现得更出色。


对于暴力堆数据问题,苏海波认为,它只是目前 NLP 领域突破的一种解法而已,但并不是唯一的解法,模型算法本身也有很多需要突破的地方,包括深度学习、迁移学习、强化学习等。就拿 BERT 模型来举例,其本质也是 NLP 算法技术的突破,是深度迁移学习技术在 NLP 上的突破成果,并不是暴力堆数据的结果。


另外,目前业界如 XLNet、RoBERTa 等各种 BERT 的改进预训练模型,虽然是通过增加预训练的数据进一步提升效果,但除了增加数据,还做了许多模型方面的优化,这些突破都不是仅仅是依靠堆数据就能带来的成果。

未来趋势:三大流派技术融合

采访最后,苏海波表示,准确地说,预训练模型是 NLP 领域新的 baseline,如果要在完全不依赖 BERT 的基础上,提出一个与 BERT 效果相当或者更好的新模型,目前来看可能性非常低。目前业界大部分 NLP 成果均是基于 BERT 的各种改进或者在对应业务场景上进行应用的,而且 BERT 的改进方向比较多,包括针对其在长文本处理、文本生成任务上的不足,与知识图谱进行融合,探索轻量级的在线服务模型等。在 NLP 领域,除了不断提升预训练模型的效果,未来如何更好地与领域的知识图谱融合,弥补预训练模型中知识的不足,也是新的技术突破方向。扩展到整个人工智能领域,未来最可能的趋势就是各流派技术的融合,这将是值得关注的 AI 技术风向。


采访嘉宾:


苏海波,清华大学电子工程系博士,百分点首席算法科学家,擅长人工智能领域的自然语言理解、动态知识图谱、深度学习、个性化推荐以及计算广告学技术;多篇论文发表于 GLOBECOM、ICC、IEICE Transactions 等国外顶尖学术会议和期刊;曾就职于新浪微博,负责广告系统的算法效果优化,以及信息流产品整体算法策略的设计及研发;现负责百分点自然语言处理、知识图谱及智能问答等认知智能方面的算法研发,带领团队成功开发了智能问答、智能校对、智能翻译、智能消费者洞察分析、AI 李白等多款 NLP 应用产品,并在多个行业的客户中成功落地使用。


延展阅读:


《百分点苏海波:深度迁移学习在NLP中的应用及实践》


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-12-04 10:094280
用户头像
赵钰莹 InfoQ 主编

发布了 874 篇内容, 共 604.6 次阅读, 收获喜欢 2671 次。

关注

评论

发布
暂无评论
发现更多内容

一文让你从零开始入门 K8s

伤感汤姆布利柏

中移物联车联网项目,在 TDengine 3.0 的应用

爱倒腾的程序员

涛思数据 tdengine 时序数据库

揭秘!用友BIP多维数据库:企业数智化的国产利器

用友BIP

5年经验,不会Java性能优化,面试原地翻车

程序员小毕

程序员 后端 JVM java面试 Java性能优化

[杂谈] pdfbox 2.0.28 文字水印移除操作(Acrobat/WPS)

alexgaoyh

Java PDF remove pdfbox text watermarker

低代码云里雾里,如何择优选择,且看这里

高端章鱼哥

低代码 低代码开发 JNPF

通过容器化实现前端微服务化架构设计

FinFish

小程序容器 小程序化 小程序技术 前端服务化

MQTT 性能测试入门:常见测试场景和指标

EMQ映云科技

物联网 性能测试 mqtt

万物互联时代,互联网企业为什么需要华为云网站安全解决方案?

平平无奇爱好科技

第十八届研电赛“安谋科技杯”上海赛区决赛成功举办

脑极体

AI

华为云视频封面&摘要服务:让视频内容更具吸引力

平平无奇爱好科技

如何克服嵌入式开发中的各种挑战,构建完善工具链并落地最佳实践?

龙智—DevSecOps解决方案

嵌入式 嵌入式开发

国产软件崛起,用友引领企业数智化转型新风向

用友BIP

国产替代

DevOps|从腾讯TEG CDC解散聊技术中台价值和建设

laofo

DevOps 研发效能 技术中台 组织建设

人工智能泡沫:揭秘低代码开发平台的革命性崛起

快乐非自愿限量之名

人工智能 低代码 数智化 ChatGPT

复旦大学附属中山医院:利用明道云进行风险管理及器械溯源的实践案例分享

明道云

基于低代码平台可视化搭建应用

这我可不懂

低代码 JNPF 可视化搭建

Spring Boot中如何优雅地实现异步调用?

快乐非自愿限量之名

前端 spring-boot

复杂的舆论场,企业该如何保障内容审核安全?

平平无奇爱好科技

​瓶颈期别挣扎了,低代码或许可以帮到你

伤感汤姆布利柏

游戏和电商企业活动频繁,华为云网站安全解决方案如何促进业务发展和增长

平平无奇爱好科技

华为云语音交互服务SIS——与人打交道的智慧软件,非常值得一试

平平无奇爱好科技

华为云CodeArts Artifact 5大特性,揭秘大型企业制品管理面纱

华为云PaaS服务小智

云计算 华为云 华为开发者大会2023

自从前端用上了低代码,开发速度直接起飞

伤感汤姆布利柏

华为云图像识别Image:技术服务提供商的首选

平平无奇爱好科技

想要快速上线网站?香港虚拟主机助你一臂之力!

一只扑棱蛾子

香港虚拟主机

创新引擎加速数字时代:揭秘JNPF平台与云计算的完美共舞!

不在线第一只蜗牛

云计算 低代码 数字化

SpringBoot——自定义自动配置与起步依赖

互联网工科生

spring springboot

看北京地铁如何利用数智底座充分发挥数据价值

用友BIP

数智底座

分享6个数据可视化软件工具

互联网工科生

数据可视化 可视化软件

蓬勃发展的数智革命:低代码开发平台开启制造业繁荣新纪元!

EquatorCoco

人工智能 低代码 制造业 数智转型

深度迁移学习在NLP中的应用:选BERT还是被评逆天的GPT 2.0?_AI&大模型_赵钰莹_InfoQ精选文章