AIGC革命已来,如何在企业场景落地?如何选择模型、怎样应用RAG、需要哪些组织流程配套? 了解详情
写点什么

智源研究院发布我国首个超大规模智能模型“悟道 1.0”,人工智能迈向“炼大模型”阶段

  • 2021-03-21
  • 本文字数:4749 字

    阅读完需:约 16 分钟

智源研究院发布我国首个超大规模智能模型“悟道1.0”,人工智能迈向“炼大模型”阶段

智源研究院院长黄铁军教授认为,近年来人工智能的发展,已经从“大炼模型”逐步迈向了“炼大模型”的阶段。


3 月 20 日,北京智源人工智能研究院举办“智源悟道 1.0 AI 研究成果发布会暨大规模预训练模型交流论坛”。会上,智源研究院发布超大规模智能模型“悟道 1.0”。



“悟道 1.0”是我国首个超大规模智能模型系统,由智源研究院学术副院长、清华大学唐杰教授领衔,带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的 100 余位 AI 科学家团队联合攻关,形成超大规模智能模型训练技术体系,训练出包括中文、多模态、认知、蛋白质预测在内的系列模型,构建我国人工智能应用基础设施。

“悟道”模型:旨在从更加本质的角度进一步探索通用智能


会上,智源研究院院长黄铁军教授介绍了“悟道”模型研发的初衷。 黄铁军表示,本轮人工智能浪潮的基本特点是“数据+算力+算法=模型”,模型浓缩了训练数据的内部规律,是实现人工智能应用的载体。


近年来人工智能的发展,已经从“大炼模型”逐步迈向了“炼大模型”的阶段,通过设计先进的算法,整合尽可能多的数据,汇聚大量算力,集约化地训练大模型,供大量企业使用,这是必然趋势。


图:智源研究院院长 黄铁军


智能模型不仅要规模大(主要体现为参数量),还要智商高,才能满足各种应用需要,这需要突破大量技术挑战。例如:如何使得预训练模型具备像人类一样的符合逻辑、意识和推理的认知能力?如何实现对图、文和视频等多模态数据和信息的理解和建模的统一?如何将中文融入预训练模型,推动中文应用背景下的人工智能的发展?如何使得预训练模型深入融入自然科学研究,在目前基础上进一步实现对超长/复杂蛋白质序列的建模和预测?


2020 年 10 月,智源研究院正式启动超大规模智能模型“悟道”项目,研发既博大又精深的超大规模训练模型,从更加本质的角度进一步探索通用人工智能。同时,构建大规模智能模型应用生态,推动相关机构和个人开发者基于模型研发各类新型智能应用。

成立“悟道”模型技术委员会


图:智源大模型技术委员会(部分),从左到右分别为黄铁军、唐杰、鄂维南、文继荣、万小军、刘知远、杨植麟


为了更好地推动“悟道”大模型的研发,保持研发过程中技术的领先性,此次发布上,还同时成立了由 9 位来自学术界和产业界的顶尖科学家组成的“悟道”大模型技术委员会。委员会主任由清华大学唐杰教授担任,委员会成员包括:北京大学鄂维南院士、清华大学鲁白教授、中国人民大学人工智能信息学院院长文继荣教授、清华大学计算机系长聘副教授刘知远、清华大学计算机系长聘副教授黄民烈、北京大学王选计算机研究所万小军研究员、一流科技创始人袁进辉、循环智能联合创始人杨植麟。 后续,技术委员会将为大模型研发的技术方案和路线选择等进行指导和把关。

“悟道 1.0”:我国首个超大规模智能模型


会上,“悟道”模型技术委员会主任、智源研究院学术副院长唐杰教授介绍了“悟道”模型的战略布局及阶段性成果。据介绍,“悟道 1.0”先期启动了 4 个大模型的研发。


图:智源学术副院长唐杰 介绍”悟道”大模型团队

1.悟道·文源:面向中文的预训练语言模型


“悟道·文源”是“以中文为核心的大规模预训练模型”,目标是构建完成全球规模最大的以中文为核心的预训练语言模型,在中英文等多个世界主流语言上取得最好的处理能力,在文本分类、情感分析、自然语言推断、阅读理解等多个任务上超越人类平均水平,探索具有通用能力的自然语言理解技术,并进行脑启发的语言模型研究。


目前,“悟道·文源”模型参数量达 26 亿,具有识记、理解、检索、数值计算、多语言等多种能力,并覆盖开放域回答、语法改错、情感分析等 20 种主流中文自然语言处理任务,技术能力已与 GPT-3 实现齐平,达到现有中文生成模型的领先效果。

2.悟道·文澜:首个公开的中文通用图文多模态预训练模型


“悟道·文澜”是“超大规模多模态预训练模型”,目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题,并最终生成产业级中文图文预训练模型和应用,并在多个评测应用上超过国际最高性能。


目前,“悟道·文澜”模型参数量达 10 亿,基于从公开来源收集到的 5000 万个图文对上进行训练,是首个公开的中文通用图文多模态预训练模型。 目前,该模型性能已到达国际领先水平,在中文公开多模态测试集 AIC-ICC 的图像生成描述任务中,得分比冠军队高出 5%;在图文互检任务中,得分比目前最流行的 UNITER 模型高出 20%。


“悟道·文澜”模型已对外开放 API。发布会上,为了展示如何使用“悟道·文澜”模型,智源研究院联合中国人民大学高瓴人工智能学院和一览群智公司,推出了两款基于该模型的小应用,其中“赋魂”AI 小程序,可以为用户上传的照片配文,“AI 心情电台”小程序可以利用图片和歌词的相关性,为用户上传的照片搭配最合拍的音乐。


图:“悟道·文澜”模型根据图片自动搭配歌曲

3.悟道·文汇: 我国首个具有认知能力的超大规模预训练模型


“悟道·文汇”为“面向认知的超大规模新型预训练模型”,致力于从认知的角度研究通用人工智能中一系列更本质问题,侧重进一步提升和发展预训练模型基于逻辑、意识和推理的认知能力,目标是研发出千亿至万亿级别参数量的、更通用且性能超越国际水平的预训练模型,搭建预训练模型体系,同时形成认知智能生态。


目前,“悟道·文汇”模型的参数规模达 113 亿,在多项任务中“悟道·文汇”的表现已经接近突破图灵测试,通过简单微调就已经实现 AI 作诗、AI 作图、AI 制作视频、图文生成、图文检索、复杂推理。


例如,“悟道·文汇”模型可以应用在电商行业自动撰写商品文案等场景,在阿里电商场景下进行微调,输入以下图片。


“悟道·文汇”模型可以生成以下文字:


旗袍是一种古典的风格,它不仅能够彰显出女性优雅气质,而且还具有很好的修饰身形。这款旗袍采用了经典的圆领设计,穿着舒适自在,同时又能够展现出女性柔美的颈部线条,让你更加的迷人。精致的绣花工艺,使得整件衣服看起来更加的精致,也更加的凸显出女性的魅力。



图:“悟道·文汇”模型基于图片自动撰写商品文案


另外,“悟道·文汇”在图灵测试中已取得接近人类的作诗水平。



图:“悟道·文汇”模型实现的自动作诗


“悟道·文汇”模型还可以实现“以文生图”,自动作画。


图:“悟道·文汇”模型实现的“以文生图”

4.悟道·文溯:超大规模蛋白质序列预测预训练模型


“悟道·文溯”是“超大规模蛋白质序列预测预训练模型”,最终目标是以基因领域认知图谱为指导,研发出十亿参数规模、可以处理超长蛋白质序列的超大规模预训练模型,在基本性能、可解释性和鲁棒性等多个方面达到世界领先水平。


目前,“悟道·文溯”已在蛋白质方面完成基于 100GB UniParc 数据库训练的 BERT 模型,在基因方面完成基于 5-10 万规模的人外周血免疫细胞(细胞类型 25-30 种)和 1 万耐药菌的数据训练,同时搭建训练软件框架并验证其可扩展性。


据唐杰教授介绍,此次发布的“悟道”大模型 1.0 版本,已经完成了百亿和千亿参数规模的预训练,在多个国际评测中取得世界第一,在部分任务上具有一定认知能力。今年,还将陆续发布后续迭代版本,面向产业界开放使用。

“悟道 1.0”:构建了超大规模预训练模型技术体系


在科研方面,“悟道 1.0”模型正在逐步搭建并完善超大规模预训练模型技术体系,取得了多项国际领先的 AI 技术的突破。

1. 基础性能方面,在自然语言理解和生成、跨视觉和文字的理解与检索等多项任务上取得更好表现


(1)“悟道·文汇”提出了全新的预训练范式 GLM,以生成为核心,打破 BERT 和 GPT 瓶颈,历史上首次实现单一模型在理解、生成、seq2seq 三种任务上取得最优效果;相同训练量下,超越 BERT、RoBERTa、T5 等常见预训练模型。


(2)“悟道·文澜”发布首个公开中文通用图文多模态预训练模型,能够懂得基于图文弱相关的“内涵信息”。

2. 针对预训练模型有效使用,提出高效算法


(1)“悟道·文汇”提出基于连续向量的微调方法 P-Tuning,历史上首次实现自回归模型在理解任务上超越自编码模型,并在知识抽取(LAMA)、少样本学习(Superglue Fewshot)等 10 多个任务上取得世界第一,性能提升超 20%;


(2)“悟道·文汇”提出 Inverse Prompting 算法,显著改善了对语言模型生成结果的控制,效果大幅度超越当前最好方法,在问答和诗歌生成任务中接近人类水平,并首次实现根据现代题材创作古体诗;


(3)“悟道·文源”发布开源的中文预训练模型 CPM,并进一步开源了微调算法代码。以此为基础的模型蒸馏技术 CPM-Distill,实现语言困惑度降低 38%,在下游任务上获更好效果;


(4)“悟道·文澜”不同于 OpenAI 的 CLIP 模型,采用更先进的跨模态对比学习算法:给定某一图文对,基于 MoCo 思想,对每种模态扩大负样本数目,特别是区分难度大的负样本,进一步提高神经网络的表达能力。

3. 进一步实现规模和性能的扩增中面临的挑战


(1)“悟道·文溯”发布并开源了万亿参数模型训练的基石 FastMoE,是首个支持 PyTorch 框架的高性能 MoE(混合专家模型)系统,不再受限于谷歌软硬件,支持多种硬件,只需一行代码即可完成 MoE 化改造,相比传统 PyTorch 实现,模型训练速度提升 47 倍;


(2)“悟道·文澜”可以方便地把图像和文本的编码器替换成最先进的单模态预训练模型,随即达到增大模型表达能力的目的,在预测阶段,速度是 UNITER 模型的 20 倍,容易部署。

4. 建设并开放了全球最大中文语料数据库 WuDaoCorpora


WuDaoCorpora 数据集的数据规模达 2TB,超出之前全球最大的中文语料库 CLUECorpus2020 十倍以上,同时着重去除了数据中包含的隐私信息,防止了隐私泄露。另外,WuDaoCorpora 的数据来源丰富,包括新闻咨询、评论、百科、论坛、博客、学术论文等,使得该数据集能够适用于不同种类的自然语言处理任务,训练出的模型泛化性更强。此外,WuDaoCorpora 数据标签的完备性较高,语料中包含医疗、法律、金融等领域标签,可以依据需求抽取某个特定领域的数据,用于训练该领域的模型,也可以用于对大模型进行微调,构建某一特定领域的应用。


该数据集不仅为“悟道”项目提供了数据支撑,还可被用于中文自然语言处理领域的多种任务模型训练,包括文本生成模型、词嵌入模型、问答对话模型等,对于国际自然语言处理领域的发展将有着积极的促进作用。

应用生态“三步走”:探索“悟道”大模型生态发展


在模型研发的同时,智源研究院也在同步探索“悟道”模型的应用生态建设模式。据唐杰教授介绍,后续“悟道”模型将以开放 API(应用程序接口)的形式对外提供服务,用户通过申请并经授权后可以基于模型 API 开发各类智能化应用。另外,也会开源模型的社区版本。

图:智源研究院学术副院长 唐杰


唐杰教授介绍,下一步,“悟道”模型应用生态建设分为三个主要阶段,分别关注示范应用、API 生态及社区运营维护等。


第一阶段为示范性应用搭建,将构建面向电子商务、智能文本服务、垂直领域以及数个独立的示范性应用,将开放几个高质量的应用 Demo,支持用户在平台页面上使用及测试。第二阶段为 API 及平台生态构建,将设计多个 API,支持对模型的不同请求方式,构建支持高并发、高速推理的 API 接口,分别支持企业级用户、个人独立开发者对模型或特定功能的请求。第三阶段为社区运营及迭代,将逐步增量扩大在线评测,构建开发者及使用者社区,建立完善的使用反馈机制,并作为模型迭代的参考标准,同时加强社区维护及管理,加快模型迭代。


目前,智源研究院已启动第一阶段的示范性应用搭建,正与快手、搜狗、360、阿里、智谱华章、一览群智、循环智能、新华社等机构就模型的应用进行洽谈,联合构建一批工业级示范性应用。


下一步,智源研究院将加强用户的开发,做好用户服务,与 AI 龙头企业共同研发更多工业级示范性应用,并将加快推动 API 生态构建及社区运营迭代工作,通过举办学术交流、技术挑战赛等活动提高“悟道”模型的影响力,吸引更多 AI 企业、研究机构、个人开发者等开展基于模型的应用开发工作,推动构建国际领先的超大规模智能模型应用生态。

2021-03-21 11:442894

评论

发布
暂无评论
发现更多内容

揭秘!探访百度AI反诈第一线

脑极体

声网发布融合CDN直播等系列新品,拓宽RTE产品边界

ToB行业头条

声网

面试了一个34岁的Java大佬,感觉到他背过很多面试题,年薪50w面试基本都能答得上

Java java面试 java架构

实作中的 std::is_detected 和 Detection Idioms (C++17)

hedzr

算法 c++17 Detection Idioms

ES索引mpping字段数据类型更改过程

印哥爱学习

elasticsearch 经验分享

从区块链到元宇宙 Metaverse

devpoint

区块链 元宇宙 10月月更

硝烟弥漫的安全战场,只等一位超级英雄登场

白洞计划

欢庆1024程序员节,开源茁壮成长

Zilliz

创业 开源 程序员 成长

北鲲云如何为企业提供混合云解决方案

北鲲云

Stream 操作

风翱

stream 10月月更

Docker Desktop 如何运行第一个 Docker 项目

HoneyMoose

官方线索|FATE开源社区1024程序员节福利

石云升

1024我在现场 10月月更

数字化转型请从一个清晰的定义开始 | DBT What

三少爷的见

人工智能 大数据 数字化转型 数字化 数字经济

HarmonyOS Connect伙伴峰会,车载智慧屏S50正式发布

科技汇

linux之curl使用技巧

入门小站

Linux

如何呈现一款软件产品的介绍页面

boshi

创业 学习笔记

中文字节长度引起的数据丢失

看山

Netty 10月月更

从芯片公司到VR,字节跳动为了元宇宙加码布局

海比研究院

Leetcode 题目解析:96. 不同的二叉搜索树

程序员架构进阶

算法 LeetCode 10月月更

解决网卡“Device eth0 does not seem to be present, delaying initialization”

耳东@Erdong

Linux 10月月更

Go语言的设计哲学

不负青春不负己🤘

Go 语言 语言设计

[ 职场 ] 发现问题容易

baiyutang

职场 10月月更

我的新下属都怀念老领导,我该把他们全部开除吗?

石云升

职场经验 10月月更

Python 编码规范

不负青春不负己🤘

Python Pythonic 编码规范

Android 音视频 - EGL 源码解析以及 C++ 实现

声网

android 音视频 OpenGL ES

再谈字节小程序

字节跳动终端技术

小程序 字节跳动 火山引擎

【得物技术】时间切片的实践与应用

得物技术

架构 性能优化 大前端 性能 业务

024云原生之软件部署策略

穿过生命散发芬芳

云原生 10月月更

👊【Spring技术实战】分析探究RedisTemplate的序列化和反序列化+泛型机制

洛神灬殇

spring 序列化 RedisTemplate 10月月更

利用基数排序LSD方法给等长字符串按字典序排序

Regan Yue

算法 10月月更

在线文字转图片工具

入门小站

工具

智源研究院发布我国首个超大规模智能模型“悟道1.0”,人工智能迈向“炼大模型”阶段_AI&大模型_智源研究院_InfoQ精选文章