【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

NLP 领域预训练模型发展趋势解读

  • 2020-03-12
  • 本文字数:1850 字

    阅读完需:约 6 分钟

NLP领域预训练模型发展趋势解读

众所周知,自然语言处理领域在最近两年发生了天翻地覆的技术变革,进入了技术井喷的快速发展期,而这一巨变的引发者是由 BERT 为代表的预训练模型及新型特征抽取器 Transformer 的快速发展与普及带来的。 从 BERT 的应用来看,已经在对话系统、机器阅读理解、搜索、文本分类等几乎大多数 NLP 应用领域快速应用,并在部分应用领域取得了突破性的效果提升,而且各大互联网公司都已开始普及应用 BERT 模型。从预训练模型改进的角度看,最近一年多也陆续出现了大量效果突出的改进模型,比如 XLNet、SpanBert、RoBERTa、ALBert、BART 等一系列改进。在众多的 BERT 预训练改进模型中,RoBERTa 可能是目前为止最简单有效的,它仅仅通过增加更大规模的高质量数据、延长训练时间以及增大 Batch Size 等简单手段,就能将预训练模型效果推到一个很高的精度,效果超过了很多其它的改进模型。这说明了:目前 BERT 采用的 Transformer 结构,从模型复杂度来说是足够复杂的,表达能力也足够强大,我们仅仅通过增加高质量数据、增加训练时间,依然能够极大幅度提升 BERT 的性能。相对提出新的复杂模型来说,这种改进更加简洁有效。


从模型结构来说,以 Google T5、MASS、UniLM 以及 BART 模型为代表的预训练网络结构代表了目前为止较好的模型结构,相信以后 BERT 模型的结构会逐步收敛到这个结构上来。它们都采取基于 Transformer 的 Encoder-Decoder 网络结构来进行模型预训练:Encoder 采取双向 Transformer,Decoder 则往往采取从左到右的序列生成结构 Transformer。这样做的好处是:它能够同时兼顾比如文本分类等判别类任务,也能够解决 NLP 中另外一大类任务,即生成类任务。这样就使得 BERT 的应用范围更加广泛。


从工程实用化角度看,因为 BERT 的基础结构采用了 12 层或者 24 层的 Transformer,所以存在参数量大计算速度慢的问题,而真正要想使模型大规模落地应用,如何将预训练模型做小做快是关键所在。目前在这方面的模型改进有几种思路:一种思路以 ALBert 的做法为代表。它一方面将输入单词 Embedding 参数矩阵进行矩阵分解,一方面将 Transformer 各层参数共享。通过结合两者来大量减少参数,但这种方案在计算量上并未减少,仅仅减少了模型参数;第二种是采用 Teacher-Student 模式的知识蒸馏,通过训练小的 Student 模型来模拟大的 Teacher 来减小模型大小,这样可以同时减小模型参数及计算量,以此增加计算速度;除此外,在模型压缩方面常见的剪枝、模型参数二值化等方法也同样可以应用在 BERT 的预训练模型上。总体而言,知识蒸馏是个相对更有前景的预训练模型压缩发展方向。


作为刚提出不久的新型研究范式,我们目前对 Transformer 和 BERT 为何有效的理解还比较浅显,同时 BERT 模型还有很多值得深入改进的方向,比如长文档处理、知识图谱的融合、多模态融合等,都需要进一步更深入的研究。相信随着大家对 BERT 的理解逐渐深入,对 BERT 模型的快速改进以及更多领域更好的应用效果会成为 NLP 领域的常态,我们在不远的未来会看到 NLP 领域更多新模型的出现,以及这些新技术推动实际应用场景的快速进步。


嘉宾介绍:


张俊林,中国中文信息学会理事,中科院软件所博士。目前担任新浪微博机器学习团队 AI Lab 负责人。在此之前,张俊林曾经在阿里巴巴任资深技术专家并负责新技术团队,以及在百度和用友担任技术经理及技术总监等职务。他是技术书籍《这就是搜索引擎:核心技术详解》(该书荣获全国第十二届优秀图书奖)、《大数据日知录:架构与算法》的作者。


他本科毕业于天津大学管理学院,之后在中科院软件所直接攻读博士学位,研究方向是信息检索理论与自然语言处理,就学期间曾在 ACL2006、COLING2004、IJCNLP2004 等国际顶级会议发表多篇学术论文。另外,他在此期间领导设计的搜索系统曾在美国国防部 DARPA 主持的 TREC 高精度检索系统评测中取得综合排名第一名的优异成绩。近年来,陆续在 Recsys2019 以及 ICDM2019 等国际会议发表多篇深度学习推荐系统相关论文。


张俊林老师将在 8 月份的 AICon 2020 上海站担任“NLP 技术和应用“专场出品人,和你一起谈谈 NLP 在工业界的最新技术应用,想要跟张老师现场面基的同学千万不要错过。


另外,大会还设置有智能金融、推荐广告技术及应用、AI 工程师团队建设与管理、认知智能、大数据计算和分析、智能语音前沿技术等热门专场,来自 BAT、微软、小米、华为、PayPal、快手等 50+ 一线 AI 技术大咖将带来更多精彩分享,目前大会限时 5 折报名火热进行中,更多内容欢迎咨询票务小姐姐 Amy:18514549229(同微信),我们 8 月上海不见不散!



公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-03-12 15:172303

评论

发布
暂无评论
发现更多内容

共享订阅--MQTT 5.0新特性

EMQ映云科技

物联网 IoT mqtt 企业号 3 月 PK 榜 共享订阅

BSN-DDC基础网络详解(五):接入DDC网络(2)

BSN研习社

BSN-DDC基础网络

阿里120W年薪架构师力荐750页微服务架构深度解析笔记

程序知音

Java 微服务 编程语言 后端技术

PS 2023版本 24.2有哪些新功能?增加了哪些相机配置?

Rose

ps ps 2023 Photoshop 2023下载

Java 8 的异步利器:CompletableFuture源码解析(建议精读)

Java你猿哥

Java ssm java8 源码解析

技术详解 阿里云AIoT物模型支撑设备规模已超亿级——设备管理运维类

阿里云AIoT

运维 安全 监控 物联网 芯片

阿里云AIoT物联网平台如何实现设备全球就近接入——设备接入类

阿里云AIoT

运维 监控 物联网 中间件 数据采集

Apache APISIX 3.2.0 LTS 正式发布

API7.ai 技术团队

面试没有分库分表经验,就看这篇

三十而立

Java sql 程序员 IT 分库

【分布式技术专题】「分布式技术架构」一文带你厘清分布式事务协议及分布式一致性协议的算法原理和核心流程机制(Paxos篇)

洛神灬殇

分布式 PAXOS paxos协议 算法分析

温湿度计设备通过阿里云IoT物联网套件上报数据到钉钉群机器人实践——数据价值类

阿里云AIoT

JavaScript Serverless 物联网 机器人 机器学习/深度学习

NFTScan 与 UniPass 达成合作伙伴,双方在多链 NFT 数据方面展开合作!

NFT Research

NFT

有效载荷标识与内容类型--MQTT 5.0新特性

EMQ映云科技

物联网 IoT mqtt 企业号 3 月 PK 榜 有效载荷标识

GuavaCache与物模型大对象引起的内存暴涨分析——设备管理运维类

阿里云AIoT

缓存 算法 监控 物联网 数据格式

云数据库TiDB免费试用初体验

TiDB 社区干货传送门

版本测评 安装 & 部署

Dr-autosync TiDB 集群的计划内和计划外切换验证步骤

TiDB 社区干货传送门

实践案例 集群管理 安装 & 部署 数据库架构选型 6.x 实践

国家高新技术企业是国企吗?获得高新企业证书有什么用?

行云管家

高新企业 高新技术

将TiDB各服务组件混布到物理机集群和K8S环境

TiDB 社区干货传送门

实践案例 集群管理 管理与运维 安装 & 部署 数据库架构设计

深入理解spring mvc启动过程与原理

三十而立

Java spring 程序员 开发 IT

TiCDC 源码解读(5)-- TiCDC DDL 事件处理逻辑 与 Filter 实现介绍

TiDB 社区干货传送门

TiCDC 源码解读

快速尝鲜:RabbitMQ 搭建完就得用起来

Java你猿哥

Java Spring Boot ssm RabbitMQ

手把手教你写spring boot starter

三十而立

Java 程序员 IT springboot boot

pytest学习和使用1-pytest安装和版本查看

Python 自动化测试 pytest

pytest学习和使用2-初步使用和用例运行

Python 自动化测试 pytest

1个案例读懂——游戏产品如何用A/B测试做增长

字节跳动数据平台

云服务 AB testing实战 A/B测试 企业号 3 月 PK 榜

TiCDC 源码解读(6)- TiCDC Puller 模块介绍

TiDB 社区干货传送门

TiDB 源码解读 TiCDC 源码解读

文盘Rust -- 安全连接 TiDB/Mysql

TiDB 社区干货传送门

开发语言

TiDB SQL调优案例之避免TiFlash帮倒忙

TiDB 社区干货传送门

性能调优 实践案例 故障排查/诊断

设计消息队列存储消息数据的 MySQL 表格

Geek_7d539e

武汉等保测评有限公司有哪几家?具体位于哪里?

行云管家

等保 等保测评 等保2.0 武汉

基于 Apache Flink 的实时计算数据流业务引擎在京东零售的实践和落地

Apache Flink

大数据 flink 实时计算

NLP领域预训练模型发展趋势解读_大数据_张俊林_InfoQ精选文章