【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

阿里发布 PLUG:270 亿参数,中文社区最大规模预训练语言模型

  • 2021-04-19
  • 本文字数:3625 字

    阅读完需:约 12 分钟

阿里发布PLUG:270亿参数,中文社区最大规模预训练语言模型

今日,阿里巴巴正式发布预训练语言模型 PLUG,这是目前为止中文社区最大规模预训练语言模型,具备 270 亿参数,刚刚在最权威的中文语言模型榜单 CLUE 上拿到了分类领域第一。

阿里巴巴重磅发布 PLUG


4 月 19 日,在以中文为核心的超大规模语言模型领域,阿里巴巴达摩院机器智能实验室重磅发布最新训练的 270 亿参数规模的中文语言理解和生成统一模型 --PLUG (Pre-training for Language Understanding and Generation)。


据了解,PLUG 采用了 1TB 以上高质量中文文本训练数据,涵盖新闻、小说、诗歌、问答等广泛类型及领域,其模型训练依托了阿里云 EFLOPS 高性能 AI 计算集群。


PLUG 超大规模预训练中文理解 & 生成统一模型,是目前中文社区最大规模的纯文本预训练语言模型,集语言理解与生成能力于一身。其目标是通过超大模型的能力,大幅度提升中文 NLP 各大任务的表现,取得超越人类表现的性能。


根据阿里巴巴达摩院的介绍,相较于 Open AI 的 GPT-3 等其他大规模生成模型,PLUG 具备如下几个优势:


  • PLUG 是目前中文社区最大规模的纯文本预训练语言模型。

  • PLUG 集语言理解与生成能力于一身,在语言理解(NLU)任务上,以 80.179 分刷新了 Chinese GLUE 分类榜单的纪录;在语言生成(NLG)任务上,在多项应用数据上较 State-of-the-art 平均提升 8% 以上。

  • PLUG 可为目标任务做针对性优化,通过利用下游训练数据 finetune 模型使其在该特定任务上生成质量达到最优,弥补之前其它大规模生成模型 few-shot inference 的生成效果不足,适于应用在实际生成任务。

  • PLUG 采用了大规模的高质量中文训练数据(1TB 以上),同时,PLUG 采用 encoder-decoder 的双向建模方式,因此,在传统的 zero-shot 生成的表现上,无论是生成的多样性,领域的广泛程度,还是生成长文本的表现,较此前的模型均有明显的优势。

  • PLUG 开放了体验功能供学术领域试用。


在最新的中文语言理解评测基准(CLUE)中,PLUG 研发团队在 CLUE 的分类任务上测试了 PLUG 的语言理解能力,仅使用若干组超参数训练的下游模型的 ensemble 结果,即取得了第一的成绩。



注:中文语言理解评测基准(CLUE)是中文社区目前权威的预训练语言模型评测的 benchmark,吸引了众多国内企业的参与。


PLUG 技术细节


此前,达摩院机器智能实验室自研的 NLU 语言模型 StructBERT 与 NLG 语言模型 PALM 均在各自领域取得了 SOTA 的效果。简单来说,StructBERT 模型通过加强句子级别(Sentence Structural Objective)和词级别(Word Structural Objective)两个层次的训练目标中对语言结构信息的建模,加强模型对于语法的学习能力。PALM 模型则结合了 Autoencoding 和 Autoregression 两种预训练方式,引入 Masked LM 目标来提升 encoder 的表征能力,同时通过预测文本后半部分来提升 decoder 的生成能力。此次大规模语言模型的训练,达摩院团队汲取二者所长,提出了一个简单的框架,用来进行 NLU&NLG 联合训练。相比于 GPT 系列模型,该大规模生成模型以 StructBERT 作为 encoder,有着很强的输入文本双向理解能力,从而可以生成和输入更相关的内容。


整个训练流程分为两个阶段。首先在第一阶段,达摩院团队训练了一个 24 layers/8192 hidden size 的标准 StructBERT 模型作为 encoder。这个过程共计训练了 300B tokens 的训练数据,规模与 GPT-3 的训练规模相当。


在第二阶段,达摩院团队将这个 encoder 用于生成模型的初始化,并外挂了一个 6 layers / 8192 hidden size 的 decoder,在训练生成模型的过程中,在 encoder 端和 decoder 端均随机确定长度 [32, 512] 进行数据采样,确保适应下游广泛的生成任务。这一阶段共计训练了 100B tokens 的训练数据,前 90% 的训练中,团队保留了 Masked LM 任务以保持模型的 NLU 能力,后 10% 的训练中,去掉 MLM 任务进行微调,以使得生成的 PPL 降到更低,能取得更好的生成效果。


PLUG 生成示例展示


PLUG 生成模型有着很强的长文本生成和建模能力,相比于 GPT 系列模型的单向建模,PLUG 对输入的理解是双向建模的,因此能够在给定小段输入的条件下,生成和输入内容相关且信息量丰富的长文本。直接用预训练好的模型在小说续写、诗歌生成、菜谱生成等场景下测试,示例如下(以小说续写和专业文稿撰写为例):


小说续写


输入:话说宝玉和凤姐回家,见过众人,宝玉便回明贾母要约秦钟上家塾之事,自己也有个伴读的朋友,正好发愤;又着实称赞秦钟人品行事,最是可人怜爱的。凤姐又在一旁帮着说:“改日秦钟还来拜见老祖宗呢。”说的贾母喜欢起来。凤姐又趁势请贾母一同过去看戏。贾母虽年高,


输出:但身上还有几分力气,便命凤姐陪她看戏。贾母一个劲儿的让出一条道来,凤姐便陪他到一边。不想戏刚刚上场,只见从人堆里,挤出两个老人来,都是身着绸衣,头上扎着两根簪儿,后面跟着两个老人。贾母一眼便认出来,这便是邢岫烟。这邢岫烟原是贾环的外孙女婿,邢夫人的外孙宝玉看了,也不觉的诧异。一时,那邢岫烟和贾环一干人等,就围着贾母、凤姐、秦钟等。一时,邢岫烟又叫:邢夫人来。贾环等不胜其扰,一时都来到邢夫人的房门口。只见邢夫人正站在窗口,向窗内张望。邢岫烟便向邢夫人笑道:邢二婶子,你看这窗户这么大,难道窗子不是贾环等听见,都来看戏。只见邢夫人也在一旁,忙向邢夫人打听起邢岫烟的来历来。邢夫人听见贾环在此,忙向邢岫烟说道:邢夫人,你也在这里看戏。邢岫烟听说,忙向邢夫人道:邢二婶子,你来的正好,正好可以问问你。邢二婶子,你可认得他么?邢夫人道:认得。邢夫人笑道:你认得他吗?


专业文稿撰写


输入:目标检测是计算机视觉的一个重要研究方向,其目的是精确识别给定图像中特定目标物体的类别和位置。近年来,


输出:视觉技术已经成为计算机视觉领域中研究热点,视觉智能的发展将对传感方式、感知技术、图像处理技术、自然语言处理等方面产生深刻影响。视觉传感器在工业生产、军事领域中的应用已越来越广泛。但是我们在实际生产中经常遇到一些难题,例如传感器的检测难题,传感器的校准难题,传感器的应用领域不明确,传感器的性能评估不一致等等,这些都是传感器在工业生产中实际应用中遇到的难题。


中文预训练模型发展现状


自 18 年谷歌 BERT 横空出世以来,预训练语言模型一跃成为自然语言处理领域的研究热点,海量数据与大规模模型的预训练 + 少量下游任务数据微调(Pre-training + Fine-tune)也成为 NLP 任务的新范式。从在开源数据集上进行评测到业务实践中的价值体现,预训练语言模型都被证明能够显著提高模型性能和算法效果。如果说预训练语言模型是 2019 年以来 NLP 领域的关键词,随着 GPT 系列模型的诞生,各大公司和研究机构的军备竞赛为其又冠上了大规模这一限定词。在这一态势下,亟需建立以中文为核心的超大规模预训练模型。


2020 年 11 月份,北京智源人工智能研究院和清华大学研究团队合作开展大规模预训练模型,并发布清源 CPM (Chinese Pretrained Models) 研究计划,旨在推动中文自然语言处理的研究与应用。清源 CPM 计划将依托智源研究院新建的人工智能算力平台,建立以中文为核心的超大规模预训练模型,进行基于超大规模预训练语言模型的少次学习能力以及多任务迁移能力研究,探索更具通用能力的语言深度理解技术。2020 年 11 月中旬,CPM 开放第一阶段的 26 亿参数规模的中文语言模型 (CPM-LM) 和 217 亿参数规模的结构化知识表示模型 (CPM-KM) 下载,以及相应的系统演示。


关于预训练模型的大量实验表明,更大的模型参数和更多的预训练数据,通常能够带来更好的下游任务效果,这类模型被证明在各种少样本学习 NLP 任务中十分有效。传统预训练模型往往需要经过有监督训练数据微调 (Fine-tuning),才能解决各种自然语言处理任务。而第一版 CPM 中文语言模型与 GPT-3 等预训练模型类似,仅需要通过少次、单次学习甚至零次学习,就能完成不同自然语言处理任务,具备一定的常识和认知的泛化能力。CPM 模型从大规模的中文语料库中学习了通用的语言模式,有望显著提升中文自然语言处理各任务的性能。初步的实验表明,CPM 模型能够用于问题解答、摘要和对话以及生成各种文本包括随笔、小说、代码、电子表格等。


按照清源 CPM 的规划,2021 年 7 月份到 9 月份,整个模型将包含约 1000 亿参数,训练数据包括 1TB 以中文为核心的多语言数据和亿级实体关系图谱。


如今,阿里巴巴正式发布 PLUG,再一次推进了中文社区预训练模型的发展。接下来,PLUG 将扩大参数规模至 2000 亿级,并进一步提升文本生成质量。除以中文为核心的 PLUG(270 亿参数)外,达摩院还联合智源研究院、清华大学发布了面向认知的超大规模新型预训练模型“文汇”(113 亿参数),以及联合清华大学发布了超大规模多模态预训练模型“M6”(千亿参数)。


与 PLUG 发布同步,达摩院宣布近期将开源阿里巴巴语言模型体系大部分重要模型。阿里达摩院语言技术实验室负责人司罗表示,“达摩院 NLP 团队将进一步攻克自然语言处理领域科研难题,完善中文及跨语言人工智能基础设施,让 AI 没有难懂的语言,并探索通用人工智能之路。”

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-04-19 13:146460
用户头像
赵钰莹 InfoQ 主编

发布了 870 篇内容, 共 599.1 次阅读, 收获喜欢 2669 次。

关注

评论 1 条评论

发布
用户头像
能完备些吗?既然发布,给个发布地址呀...
2021-04-20 10:13
回复
没有更多了
发现更多内容

刘对(火线安全)-多云环境的风险发现

火线安全

云安全 云安全技术 云安全研究

SAP 智能机器人流程自动化(iRPA)解决方案分享

Jerry Wang

SAP 业务流程自动化 7月月更 企业自动化 iRPA

[Ljava.lang.Object;是什么?

okokabcd

Java

她就是那个「别人家的HR」|ONES 人物

万事ONES

如何写出好代码 - 防御式编程指南

云智慧AIOps社区

Java 架构 代码质量

远程办公经验?来一场自问自答形式的介绍吧~ | 社区征文

为自己带盐

初夏征文 7月月更

嗨 FUN 一夏,与 StarRocks 一起玩转 SQL Planner!

StarRocks

sql 大数据 数据库·

向Spring框架学习设计模式

慕枫技术笔记

设计模式 spring框架 7月月更

MySQL审计插件介绍

Simon

MySQL 运维 MySQL 数据库

单集群1万节点!腾讯云大数据平台TBDS获得分布式批处理平台万节点能力认证

科技热闻

数据湖系列之一 | 你一定爱读的极简数据平台史,从数据仓库、数据湖到湖仓一体

Baidu AICLOUD

大数据 数据仓库 数据湖 对象存储 湖仓一体

6月刊 | AntDB数据库参与编写《数据库发展研究报告》 亮相信创产业榜单

亚信AntDB数据库

数据库 AntDB 国产数据库

leetcode 322. Coin Change 零钱兑换(中等)

okokabcd

LeetCode 动态规划 算法与数据结构

如何看待国企纷纷卸载微软Office改用金山WPS?

优秀

wps office办公软件

户外LED显示屏应该考虑哪些问题?

Dylan

LED显示屏 户外LED显示屏

重磅披露!上百个重要信息系统被入侵,主机成为重点攻击目标

青藤云安全

网络安全 网络攻击防御

Python|小白如何入门Python?记我的Python初体验

AXYZdong

7月月更

K8S 应用部署

kubenetes

StoneDB 为国产数据库添砖加瓦,基于 MySQL 的一体化实时 HTAP 数据库正式开源!

StoneDB

大数据 MySQL 数据库 #数据库 HTAP #开源

贝联珠贯加入龙蜥社区,共同促进碳中和

OpenAnolis小助手

开源 龙蜥社区 CLA 贝联珠贯 IT资源利用

【计算讲谈社】第四讲:自动驾驶,未来的移动智能载体?

大咖说

自动驾驶 阿里云 科技

博睿数据一体化智能可观测平台入选中国信通院2022年“云原生产品名录”

博睿数据

智能运维 博睿数据 One 智能可观测平台

C#/VB.NET 合并PDF文档

在下毛毛雨

C# .net PDF 文件合并

独家消息:阿里云悄然推出RPA云电脑,已与多家RPA厂商开放合作

王吉伟频道

阿里云 RPA 无影云电脑 RPA云电脑 RPA+DaaS

越来越多地使用 SLO 来实现可观测性|DevOps

观测云

可观测性

洞态在某互联⽹⾦融科技企业的最佳落地实践

火线安全

漏洞检测 IAST

60 个前端 Web 开发流行语你都知道哪些?

海拥(haiyong.site)

前端 Web 7月月更

直播带货系统软件开发,Android和iOS的区别在哪里?

开源直播系统源码

ios开发 Android开发 直播带货系统 原生开发 混合开发

ABAP-调用Restful API

桥下本有油菜花

abap REST API

ABAP-屏幕切换时,刷新上一个屏幕

桥下本有油菜花

abap

华为发布HCSP-Solution-5G Security人才认证,助力5G安全人才生态建设

Geek_2d6073

阿里发布PLUG:270亿参数,中文社区最大规模预训练语言模型_AI&大模型_赵钰莹_InfoQ精选文章