【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

官宣!达摩院开源秘藏深度语言模型体系 AliceMind,NLP 正在走向大工业时代

  • 2021-06-22
  • 本文字数:3551 字

    阅读完需:约 12 分钟

官宣!达摩院开源秘藏深度语言模型体系AliceMind,NLP正在走向大工业时代

6 月 22 日,InfoQ 获悉,阿里巴巴达摩院已正式开源深度语言模型体系 AliceMind。


开源地址:


https://github.com/alibaba/AliceMind


达摩院开源顶级语言 AI —AliceMind


AliceMind 是什么?


一句话介绍,AliceMind 是业界领先的预训练语言模型体系。


字面含义:AliceMind, Alibaba's Collection of Encoder-decoders from MinD (Machine Intelligence of Damo)


具体来说,预训练语言模型是当前自然语言处理(NLP)领域的研究热点之一,“预训练+精调”已成为 NLP 任务的新范式。


阿里巴巴达摩院作为最早投入预训练语言模型研究的团队之一,历经三年研发出深度语言模型体系 AliceMind, 包括通用语言模型 StructBERT、多语言 VECO、生成式 PALM、多模态 StructVBERT、结构化 StructuralLM、知识驱动 LatticeBERT、机器阅读理解 UED、超大模型 PLUG 等模型。


AliceMind 先后登顶了 GLUE、CLUE、XTREME、VQA Challenge、DocVQA、MS MARCO 在内的自然语言处理领域的的六大权威榜单,领先业界,相关工作论文被 AI/NLP 顶会接收。


今年 6 月 19 日,AliceMind 在 6 月 19 日再次登顶多模态权威榜单 VQA Challenge 2021,这个比赛类似看图问答,给定一张图像和关于图像的自然语言问题,AI 需要提供准确的自然语言答案。AliceMind 战胜了微软、Facebook 等几十家国际顶尖团队,将纪录从去年第一名的 76.36%显著提升到 79.78%,接近人类水平(80.78%)。

AliceMind 有何领先之处?


1、覆盖全面:覆盖多语言、多模态、结构化等多个预训练语言模型


2、技术领先:多个模型在世界榜单中排名靠前


3、开放普惠:将围绕 Pre-training+Fine-tuning(“预训练+精调”)语言模型持续进行生态性的技术开源

AliceMind 有何创新之处?

1、通用语言模型(StructBERT)


Google 于 2018 年底推出的 BERT 模型是业界广泛使用的自然语言预训练模型,达摩院团队在 BERT 的基础上提出优化模型 StructBERT,让机器更好地掌握人类语法,理解自然语言,2020 年多次在自然语言处理领域顶级赛事 GLUE Benchmark 上夺冠。


StructBERT 通过在句子级别和词级别引入两个新的目标函数,好比给机器内置一个“语法识别器”,使机器在面对语序错乱或不符合语法习惯的词句时,仍能准确理解并给出正确的表达和回应,大大提高机器对词语、句子以及语言整体的理解力。


2、多语言语言模型(VECO)


跨语言预训练初衷是为多种语言建立起一个统一联合的语义表示,AliceMind 体系内的跨语言预训练模型 VECO 一经提出,便在国际权威多语言榜单 XTREME 排名第一,远超 Facebook、Microsoft 等业界代表性模型。


VECO 目前支持 100 种语言的理解和生成任务。


VECO 效果亮眼,主要是因为两项创新:一是其可以更加“显式”得进行跨语言信息的建模(图 1);二是 VECO 在预训练的过程充分学习用于语言理解(NLU)和生成(NLG)任务,并让二者互相学习提高彼此(图 2)。



图 1



图 2


因此,VECO 模型成为了多语言领域内的第一个同时在多语言理解(NLU)和语言生成(NLG)任务上均取得业内最佳效果的模型,也被顶会 ACL2021 录用。

3、生成式语言模型(PALM)


PALM 采用了与之前的生成模型不同的预训练方式,将预测后续文本作为其预训练目标,而非重构输入文本。PALM 在一个模型中使用自编码方式来编码输入文本,同时使用自回归方式来生成后续文本。


这种预测后续文本的预训练促使该模型提高对输入文本的理解能力,从而在下游的各个语言生成(NLG)任务上取得更好的效果。


PALM 在 MARCO NLG 自然语言生成公开评测上取得了排行榜第一,同时在摘要生成标准数据集 CNN/DailyMail 和 Gigaword 上也超过了现有的各个预训练生成语言模型。


PALM 可被用于问答生成、文本复述、回复生成、文本摘要、Data-to-Text 等生成应用上。


4、多模态语言模型(StructVBERT)


StructVBERT 是在通用的 StructBERT 模型基础上,同时引入文本和图像模态,在统一的多模态语义空间进行联合建模,在单流架构的基础上同时引入图像-文本描述数据和图像问答数据进行多任务预训练,并在多尺度的图像特征上进行分阶段预训练。


此外,模型利用 attention mask 矩阵控制实现双流架构,从而提升跨模态双流建模能力,结合单流、双流结构的优点进一步提升模型对文本和图像两个模态的理解能力。相关文章已被顶会 ACL2021 录用。



5、结构化语言模型(StructuralLM)


StructuralLM 在语言模型 StructBERT 的基础上扩展到结构化语言模型,充分利用图片文档数据的 2D 位置信息,并引入 box 位置预测的预训练任务,帮助模型感知图片不同位置之间词语的关系,这对于理解真实场景中的图片文档十分重要。


Structural LM 模型在 DocVQA 榜单上排名第一,同时在表单理解 FUNSD 数据集和文档图片分类 RVL-CDIP 数据集上也超过现有的所有预训练模型。


6、机器阅读理解模型(UED)


自最开始声名大噪的 SQuAD 榜单起,阿里围绕着机器阅读理解发展路线:单段落抽取->多文档抽取/检索->多文档生成->开放式阅读理解,拿下了一系列的榜单冠军:


2018 年在单段落机器阅读理解领域顶级赛事 SQuAD 上首次超出人类回答精准率;


2018 年在多文档机器阅读理解权威比赛 TriviaQA 和 DuReader 上双双刷新纪录,取得第一名;


2019 年在信息检索国际顶级评测 TREC 2019 Deep Learning Track 上的段落检索和文档检索任务上均取得第一名;


2019 年在机器阅读理解顶级赛事 MS MARCO 的段落排序、多文档答案抽取以及多文档答案生成 3 个任务均取得第一名,并在多文档答案抽取任务上首次超越人类水平;


7、超大规模中文理解和生成统一模型(PLUG)

PLUG 是目前中文社区已开放 API 的最大规模的纯文本预训练语言模型,集语言理解与生成能力于一身。


PLUG 可为目标任务做针对性优化,通过利用下游训练数据 finetune 模型使其在该特定任务上生成质量达到最优,弥补之前其它大规模生成模型 few-shot inference 的生成效果不足,适于应用在实际生成任务。


同时,PLUG 采用 encoder-decoder 的双向建模方式,因此,在传统的 zero-shot 生成的表现上,无论是生成的多样性,领域的广泛程度,还是生成长文本的表现,较此前的模型均有明显的优势。


8.知识驱动的语言模型 LatticeBERT


LatticeBERT 在预训练模型中训练中有效地融合了词典等知识,从而能够同时建模字和词的结构,来线性化地表示这种混合粒度的输入。


第一步是将涵盖多粒度字词信息的中文文本用词格(Lattice)表示起来,再把这个词格线性化作为 BERT 的输入。LatticeBERT 在 2020 年 9 月达到中文予以理解评估基准 CLUE 榜单的 base 模型中的第一名。


AliceMind 的应用情况


AliceMind 具有阅读、写作、翻译、问答、搜索、摘要生成、对话等多种能力,目前已成为阿里的语言技术底座,日均调用量超过 50 亿次,活跃场景超过 200 个,已在跨境电商、客服、广告等数十个核心业务应用落地。


AliceMind 已上线到内部平台,开箱即用,目前支持继续训练,精调,蒸馏,测试,部署五大功能,只需简单操作即可完成语言模型从训练到部署的完整链路。


在阿里之外,AliceMind 广泛运用于医疗、能源、金融等多个行业。其中,浙江电网公司以 AliceMind 为底座为员工构建智能化运维平台,应用于变压器检修、供电抢修等业务,已经开始在国家电网公司统一推广。

AliceMind 开源有什么意义?


传统 NLP 模型制作复杂,耗时耗力,且用途单一,难以复用,犹如手工作坊。但近几年兴起的预训练语言模型,正在改变局面,有望让语言 AI 走向入可规模化复制的工业时代。


如果用炼钢来类比,以前要获得一个可用的 NLP 应用模型,要从铁矿石开始炼钢,周期长,费用高,产量低;但现在有了开源的预训练语言模型,相当于有了现成的粗钢,只需要把粗钢炼成所需的特定钢材,效率大为提升。


阿里达摩院深度语言模型团队负责人黄松芳表示,“预训练语言模型已成为 NLP 领域的基石和原材料,AliceMind 开源将降低 NLP 领域研究和应用创新的门槛,助推行业从手工业时代走向大工业时代。


开源地址:

https://github.com/alibaba/AliceMind/


体验入口:

https://nlp.aliyun.com/portal#/alice

 

论文链接

  • 通用预训练模型 StructBERT:Incorporating Language Structures into Pre-training for Deep Language Understanding https://arxiv.org/abs/1908.04577 

  • 多语言预训练模型 VECO:Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation https://arxiv.org/abs/2010.16046 

  • 生成式预训练模型 PALM:Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation  https://arxiv.org/abs/2004.07159

  • 多模态预训练模型 E2E-VLP:End-to-End Vision-Language Pre-training Enhanced by Visual Learning https://arxiv.org/abs/2106.01804 

  • 结构化预训练模型 StructuralLM:Structural Pre-training for Form Understanding https://arxiv.org/abs/2105.11210 

  • 融合知识的预训练模型 Lattice-BERT:Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models https://arxiv.org/abs/2104.07204 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-06-22 14:483716
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 493.6 次阅读, 收获喜欢 1967 次。

关注

评论

发布
暂无评论
发现更多内容

MobPush 合规指南

MobTech袤博科技

构建高可用云原生应用,如何有效进行流量管理?

华为云开发者联盟

云原生 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

又一开发者公布高分方案源代码,助力软件杯选手高效解题

飞桨PaddlePaddle

百度飞桨 中国软件杯

5人5月用容器技术保卫蓝天

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 5 月 PK 榜

Chrome分组插件

soap said

Chrome插件

对话 ONES 联合创始人兼 CTO 冯斌:技术管理者如何打造一支自驱型团队?

万事ONES

设计模式详解之工厂模式

阿里技术

设计模式 工厂模式

为什么说财务共享是财务数智化转型的基石?

用友BIP

财务共享

深度学习进阶篇-预训练模型[2]:Transformer-XL、Longformer、GPT原理、模型结构、应用场景、改进技巧等详细讲解

汀丶人工智能

人工智能 深度学习 nlp 预训练模型 Transformer

教你1分钟搞定2小时字幕

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 5 月 PK 榜

人体识别图像技术在智能安防中的应用

来自四九城儿

公网对讲SDK——对讲应用场景

anyRTC开发者

音视频 视频会议 指挥调度 快对讲 公网对讲

成功加冕!用友大易获评2023最佳招聘管理软件供应商

用友BIP

招聘

一名开发者眼中的 TiDB 与 MySQL 的选择丨TiDB Community

PingCAP

MySQL 数据库 TiDB

单机 T 级流量转发吞吐提升 5 倍,可编程负载均衡网关 1.0 上线

Baidu AICLOUD

负载均衡 可编程网关

景区共享电动车合作带动景区新消费

共享电单车厂家

共享电动车投放 景区共享电动车 共享电单车厂家 校内共享电动车

CMake常用命令大全:提高项目构建效率

小万哥

程序员 面试 后端 C/C++ cmake

【参考设计】16芯串联电池包储能系统

元器件秋姐

芯片 电池 元器件 电源 驱动器

索信达两大营销创新产品获官方认可,都有哪些创新亮点?

索信达控股

打造高性能 IaaS 计算架构,百度智能云 DPU 落地实践

Baidu AICLOUD

DPU

3种分页列表缓存方式,速收藏~~

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 5 月 PK 榜

[杂谈]百度飞浆环境配置

alexgaoyh

ubuntu gpu cuda cudnn PaddlePaddl

什么是产品路线图?如何做产品路线图规划

顿顿顿

Scrum 敏捷开发 敏捷项目管理 产品路线图

财务共享中心释放企业“数据”生产力

用友BIP

财务共享

牛客网最新开源!共1600+页 ,堪称Java面试八股文的天花板

采菊东篱下

程序员 java面试

文档关键信息提取形成知识图谱:基于NLP算法提取文本内容的关键信息生成信息图谱教程及码源(含pyltp安装使用教程)

汀丶人工智能

nlp 知识图谱 信息抽取 命名实体识别 pyltp

CST 电磁仿真计算时,为什么要关闭超线程?【操作教程】

思茂信息

cst cst使用教程 cst电磁仿真 cst仿真软件

Gamefi很有潜力?分析链游gamefi系统开发源码!

Congge420

官宣!达摩院开源秘藏深度语言模型体系AliceMind,NLP正在走向大工业时代_AI&大模型_刘燕_InfoQ精选文章