NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

阿里发布 PLUG:270 亿参数,中文社区最大规模预训练语言模型

  • 2021-04-19
  • 本文字数:3625 字

    阅读完需:约 12 分钟

阿里发布PLUG:270亿参数,中文社区最大规模预训练语言模型

今日,阿里巴巴正式发布预训练语言模型 PLUG,这是目前为止中文社区最大规模预训练语言模型,具备 270 亿参数,刚刚在最权威的中文语言模型榜单 CLUE 上拿到了分类领域第一。

阿里巴巴重磅发布 PLUG


4 月 19 日,在以中文为核心的超大规模语言模型领域,阿里巴巴达摩院机器智能实验室重磅发布最新训练的 270 亿参数规模的中文语言理解和生成统一模型 --PLUG (Pre-training for Language Understanding and Generation)。


据了解,PLUG 采用了 1TB 以上高质量中文文本训练数据,涵盖新闻、小说、诗歌、问答等广泛类型及领域,其模型训练依托了阿里云 EFLOPS 高性能 AI 计算集群。


PLUG 超大规模预训练中文理解 & 生成统一模型,是目前中文社区最大规模的纯文本预训练语言模型,集语言理解与生成能力于一身。其目标是通过超大模型的能力,大幅度提升中文 NLP 各大任务的表现,取得超越人类表现的性能。


根据阿里巴巴达摩院的介绍,相较于 Open AI 的 GPT-3 等其他大规模生成模型,PLUG 具备如下几个优势:


  • PLUG 是目前中文社区最大规模的纯文本预训练语言模型。

  • PLUG 集语言理解与生成能力于一身,在语言理解(NLU)任务上,以 80.179 分刷新了 Chinese GLUE 分类榜单的纪录;在语言生成(NLG)任务上,在多项应用数据上较 State-of-the-art 平均提升 8% 以上。

  • PLUG 可为目标任务做针对性优化,通过利用下游训练数据 finetune 模型使其在该特定任务上生成质量达到最优,弥补之前其它大规模生成模型 few-shot inference 的生成效果不足,适于应用在实际生成任务。

  • PLUG 采用了大规模的高质量中文训练数据(1TB 以上),同时,PLUG 采用 encoder-decoder 的双向建模方式,因此,在传统的 zero-shot 生成的表现上,无论是生成的多样性,领域的广泛程度,还是生成长文本的表现,较此前的模型均有明显的优势。

  • PLUG 开放了体验功能供学术领域试用。


在最新的中文语言理解评测基准(CLUE)中,PLUG 研发团队在 CLUE 的分类任务上测试了 PLUG 的语言理解能力,仅使用若干组超参数训练的下游模型的 ensemble 结果,即取得了第一的成绩。



注:中文语言理解评测基准(CLUE)是中文社区目前权威的预训练语言模型评测的 benchmark,吸引了众多国内企业的参与。


PLUG 技术细节


此前,达摩院机器智能实验室自研的 NLU 语言模型 StructBERT 与 NLG 语言模型 PALM 均在各自领域取得了 SOTA 的效果。简单来说,StructBERT 模型通过加强句子级别(Sentence Structural Objective)和词级别(Word Structural Objective)两个层次的训练目标中对语言结构信息的建模,加强模型对于语法的学习能力。PALM 模型则结合了 Autoencoding 和 Autoregression 两种预训练方式,引入 Masked LM 目标来提升 encoder 的表征能力,同时通过预测文本后半部分来提升 decoder 的生成能力。此次大规模语言模型的训练,达摩院团队汲取二者所长,提出了一个简单的框架,用来进行 NLU&NLG 联合训练。相比于 GPT 系列模型,该大规模生成模型以 StructBERT 作为 encoder,有着很强的输入文本双向理解能力,从而可以生成和输入更相关的内容。


整个训练流程分为两个阶段。首先在第一阶段,达摩院团队训练了一个 24 layers/8192 hidden size 的标准 StructBERT 模型作为 encoder。这个过程共计训练了 300B tokens 的训练数据,规模与 GPT-3 的训练规模相当。


在第二阶段,达摩院团队将这个 encoder 用于生成模型的初始化,并外挂了一个 6 layers / 8192 hidden size 的 decoder,在训练生成模型的过程中,在 encoder 端和 decoder 端均随机确定长度 [32, 512] 进行数据采样,确保适应下游广泛的生成任务。这一阶段共计训练了 100B tokens 的训练数据,前 90% 的训练中,团队保留了 Masked LM 任务以保持模型的 NLU 能力,后 10% 的训练中,去掉 MLM 任务进行微调,以使得生成的 PPL 降到更低,能取得更好的生成效果。


PLUG 生成示例展示


PLUG 生成模型有着很强的长文本生成和建模能力,相比于 GPT 系列模型的单向建模,PLUG 对输入的理解是双向建模的,因此能够在给定小段输入的条件下,生成和输入内容相关且信息量丰富的长文本。直接用预训练好的模型在小说续写、诗歌生成、菜谱生成等场景下测试,示例如下(以小说续写和专业文稿撰写为例):


小说续写


输入:话说宝玉和凤姐回家,见过众人,宝玉便回明贾母要约秦钟上家塾之事,自己也有个伴读的朋友,正好发愤;又着实称赞秦钟人品行事,最是可人怜爱的。凤姐又在一旁帮着说:“改日秦钟还来拜见老祖宗呢。”说的贾母喜欢起来。凤姐又趁势请贾母一同过去看戏。贾母虽年高,


输出:但身上还有几分力气,便命凤姐陪她看戏。贾母一个劲儿的让出一条道来,凤姐便陪他到一边。不想戏刚刚上场,只见从人堆里,挤出两个老人来,都是身着绸衣,头上扎着两根簪儿,后面跟着两个老人。贾母一眼便认出来,这便是邢岫烟。这邢岫烟原是贾环的外孙女婿,邢夫人的外孙宝玉看了,也不觉的诧异。一时,那邢岫烟和贾环一干人等,就围着贾母、凤姐、秦钟等。一时,邢岫烟又叫:邢夫人来。贾环等不胜其扰,一时都来到邢夫人的房门口。只见邢夫人正站在窗口,向窗内张望。邢岫烟便向邢夫人笑道:邢二婶子,你看这窗户这么大,难道窗子不是贾环等听见,都来看戏。只见邢夫人也在一旁,忙向邢夫人打听起邢岫烟的来历来。邢夫人听见贾环在此,忙向邢岫烟说道:邢夫人,你也在这里看戏。邢岫烟听说,忙向邢夫人道:邢二婶子,你来的正好,正好可以问问你。邢二婶子,你可认得他么?邢夫人道:认得。邢夫人笑道:你认得他吗?


专业文稿撰写


输入:目标检测是计算机视觉的一个重要研究方向,其目的是精确识别给定图像中特定目标物体的类别和位置。近年来,


输出:视觉技术已经成为计算机视觉领域中研究热点,视觉智能的发展将对传感方式、感知技术、图像处理技术、自然语言处理等方面产生深刻影响。视觉传感器在工业生产、军事领域中的应用已越来越广泛。但是我们在实际生产中经常遇到一些难题,例如传感器的检测难题,传感器的校准难题,传感器的应用领域不明确,传感器的性能评估不一致等等,这些都是传感器在工业生产中实际应用中遇到的难题。


中文预训练模型发展现状


自 18 年谷歌 BERT 横空出世以来,预训练语言模型一跃成为自然语言处理领域的研究热点,海量数据与大规模模型的预训练 + 少量下游任务数据微调(Pre-training + Fine-tune)也成为 NLP 任务的新范式。从在开源数据集上进行评测到业务实践中的价值体现,预训练语言模型都被证明能够显著提高模型性能和算法效果。如果说预训练语言模型是 2019 年以来 NLP 领域的关键词,随着 GPT 系列模型的诞生,各大公司和研究机构的军备竞赛为其又冠上了大规模这一限定词。在这一态势下,亟需建立以中文为核心的超大规模预训练模型。


2020 年 11 月份,北京智源人工智能研究院和清华大学研究团队合作开展大规模预训练模型,并发布清源 CPM (Chinese Pretrained Models) 研究计划,旨在推动中文自然语言处理的研究与应用。清源 CPM 计划将依托智源研究院新建的人工智能算力平台,建立以中文为核心的超大规模预训练模型,进行基于超大规模预训练语言模型的少次学习能力以及多任务迁移能力研究,探索更具通用能力的语言深度理解技术。2020 年 11 月中旬,CPM 开放第一阶段的 26 亿参数规模的中文语言模型 (CPM-LM) 和 217 亿参数规模的结构化知识表示模型 (CPM-KM) 下载,以及相应的系统演示。


关于预训练模型的大量实验表明,更大的模型参数和更多的预训练数据,通常能够带来更好的下游任务效果,这类模型被证明在各种少样本学习 NLP 任务中十分有效。传统预训练模型往往需要经过有监督训练数据微调 (Fine-tuning),才能解决各种自然语言处理任务。而第一版 CPM 中文语言模型与 GPT-3 等预训练模型类似,仅需要通过少次、单次学习甚至零次学习,就能完成不同自然语言处理任务,具备一定的常识和认知的泛化能力。CPM 模型从大规模的中文语料库中学习了通用的语言模式,有望显著提升中文自然语言处理各任务的性能。初步的实验表明,CPM 模型能够用于问题解答、摘要和对话以及生成各种文本包括随笔、小说、代码、电子表格等。


按照清源 CPM 的规划,2021 年 7 月份到 9 月份,整个模型将包含约 1000 亿参数,训练数据包括 1TB 以中文为核心的多语言数据和亿级实体关系图谱。


如今,阿里巴巴正式发布 PLUG,再一次推进了中文社区预训练模型的发展。接下来,PLUG 将扩大参数规模至 2000 亿级,并进一步提升文本生成质量。除以中文为核心的 PLUG(270 亿参数)外,达摩院还联合智源研究院、清华大学发布了面向认知的超大规模新型预训练模型“文汇”(113 亿参数),以及联合清华大学发布了超大规模多模态预训练模型“M6”(千亿参数)。


与 PLUG 发布同步,达摩院宣布近期将开源阿里巴巴语言模型体系大部分重要模型。阿里达摩院语言技术实验室负责人司罗表示,“达摩院 NLP 团队将进一步攻克自然语言处理领域科研难题,完善中文及跨语言人工智能基础设施,让 AI 没有难懂的语言,并探索通用人工智能之路。”

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-04-19 13:146484
用户头像
赵钰莹 InfoQ 主编

发布了 874 篇内容, 共 605.2 次阅读, 收获喜欢 2671 次。

关注

评论 1 条评论

发布
用户头像
能完备些吗?既然发布,给个发布地址呀...
2021-04-20 10:13
回复
没有更多了
发现更多内容

就靠这一篇文章,我就弄懂了 Python Django 的 django-admin 命令行工具集

梦想橡皮擦

9月日更

第一波场DAPP系统搭建,DAPP介绍

合肥艾数199四②43⑧797

携手伙伴,共赴星海-百度飞桨应急行业AI私享会成功举办

百度大脑

人工智能 飞桨

国资云横空出世,云上安全监管再加码

行云管家

云计算 数据安全 企业上云 国资云

【LeetCode】 二叉树中和为某一值的路径Java题解

Albert

算法 LeetCode 9月日更

API与ESB 、ServiceMesh、微服务究竟关系如何?

BoCloud博云

云管理

聊聊什么样的代码是可读性强的代码?

卢卡多多

代码质量 代码 9月日更

Dogfooding-爱奇艺移动端后台灰度环境优化实践

爱奇艺技术产品团队

测试 开发 灰度发布

架构学习模块一

George

柯基数据通过Rainbond完成云原生改造,实现离线持续交付客户

北京好雨科技有限公司

云原生 需求落地 离线部署 可持续交付

国产接口管理工具APIPOST中的常见设置项

Proud lion

大前端 后端 Postman 开发工具 接口文档

❤️用武侠小说的形式来阅读LinkedList的源码,绝了!

沉默王二

Java

敏捷团队的最佳测试实践:自动化金字塔

禅道项目管理

测试 自动化测试

浪潮云说丨上云迁移——快,准,稳!

浪潮云

云计算

企业级即时通信市场能否告别“孤岛时代”?

WorkPlus

移动数字化底座 企业即时通讯平台 移动数字化平台 即时通讯IM 移动办公

全球教育行业机构遭受的攻击增长了 29%

WorkPlus

阅读

云小课|细数那些VMware虚拟机的恢复招式

华为云开发者联盟

vmware 云小课 云备份 VMware恢复 恢复数据

值钱的数据放在云上安全吗?怎样才能保障其安全性?

行云管家

网络安全 信息安全 数据安全 企业上云

netty系列之:搭建自己的下载文件服务器

程序那些事

Java Netty io nio 程序那些事

祝贺 StreamNative 工程师张勇成功跻身 Apache BookKeeper Committer

Apache Pulsar

bookKeeper Apache Pulsar StreamNative

深入分析3种线程池执行任务的逻辑方法

华为云开发者联盟

Java 线程 线程池 ThreadPoolExecutor类

华为云IoT如何连接边缘和云,实现海量IoT数据就地处理的技术实践

华为云开发者联盟

IoT 边缘 IoT边缘 实时数据 IoT Edge

拥抱开源,云智慧发布AIOps社区

WorkPlus

阅读

服务器运维是什么意思?日常工作包含哪些?

行云管家

运维 服务器 IT运维 服务器运维

如何设计企业特色的数字化转型架构?

博文视点Broadview

如何采购ARM六核RK3399安卓工控开发主板?

双赞工控

安卓主板 工控主板 rk3399主板

电信运营商基于 MQTT 协议构建千万级 IoT 设备管理平台

EMQ映云科技

物联网 IoT mqtt 通信运营商 emq

波场链DAPP智能合约系统搭建|波场链DAPP开发

Geek_23f0c3

DAPP智能合约交易系统开发 波场DAPP 波场链DAPP开发

华为云PB级数据库GaussDB(for Redis)揭秘:如何搞定推荐系统存储难题

华为云开发者联盟

数据库 推荐系统 存储 华为云 GaussDB(for Redis)

IDC:2021年全球大数据和分析支出预计达2157亿美元

WorkPlus

阅读

再启动!零代码第四期训练营报名开放中

明道云

阿里发布PLUG:270亿参数,中文社区最大规模预训练语言模型_AI&大模型_赵钰莹_InfoQ精选文章