【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

智源研究院发布我国首个超大规模智能模型“悟道 1.0”,人工智能迈向“炼大模型”阶段

  • 2021-03-21
  • 本文字数:4749 字

    阅读完需:约 16 分钟

智源研究院发布我国首个超大规模智能模型“悟道1.0”,人工智能迈向“炼大模型”阶段

智源研究院院长黄铁军教授认为,近年来人工智能的发展,已经从“大炼模型”逐步迈向了“炼大模型”的阶段。


3 月 20 日,北京智源人工智能研究院举办“智源悟道 1.0 AI 研究成果发布会暨大规模预训练模型交流论坛”。会上,智源研究院发布超大规模智能模型“悟道 1.0”。



“悟道 1.0”是我国首个超大规模智能模型系统,由智源研究院学术副院长、清华大学唐杰教授领衔,带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的 100 余位 AI 科学家团队联合攻关,形成超大规模智能模型训练技术体系,训练出包括中文、多模态、认知、蛋白质预测在内的系列模型,构建我国人工智能应用基础设施。

“悟道”模型:旨在从更加本质的角度进一步探索通用智能


会上,智源研究院院长黄铁军教授介绍了“悟道”模型研发的初衷。 黄铁军表示,本轮人工智能浪潮的基本特点是“数据+算力+算法=模型”,模型浓缩了训练数据的内部规律,是实现人工智能应用的载体。


近年来人工智能的发展,已经从“大炼模型”逐步迈向了“炼大模型”的阶段,通过设计先进的算法,整合尽可能多的数据,汇聚大量算力,集约化地训练大模型,供大量企业使用,这是必然趋势。


图:智源研究院院长 黄铁军


智能模型不仅要规模大(主要体现为参数量),还要智商高,才能满足各种应用需要,这需要突破大量技术挑战。例如:如何使得预训练模型具备像人类一样的符合逻辑、意识和推理的认知能力?如何实现对图、文和视频等多模态数据和信息的理解和建模的统一?如何将中文融入预训练模型,推动中文应用背景下的人工智能的发展?如何使得预训练模型深入融入自然科学研究,在目前基础上进一步实现对超长/复杂蛋白质序列的建模和预测?


2020 年 10 月,智源研究院正式启动超大规模智能模型“悟道”项目,研发既博大又精深的超大规模训练模型,从更加本质的角度进一步探索通用人工智能。同时,构建大规模智能模型应用生态,推动相关机构和个人开发者基于模型研发各类新型智能应用。

成立“悟道”模型技术委员会


图:智源大模型技术委员会(部分),从左到右分别为黄铁军、唐杰、鄂维南、文继荣、万小军、刘知远、杨植麟


为了更好地推动“悟道”大模型的研发,保持研发过程中技术的领先性,此次发布上,还同时成立了由 9 位来自学术界和产业界的顶尖科学家组成的“悟道”大模型技术委员会。委员会主任由清华大学唐杰教授担任,委员会成员包括:北京大学鄂维南院士、清华大学鲁白教授、中国人民大学人工智能信息学院院长文继荣教授、清华大学计算机系长聘副教授刘知远、清华大学计算机系长聘副教授黄民烈、北京大学王选计算机研究所万小军研究员、一流科技创始人袁进辉、循环智能联合创始人杨植麟。 后续,技术委员会将为大模型研发的技术方案和路线选择等进行指导和把关。

“悟道 1.0”:我国首个超大规模智能模型


会上,“悟道”模型技术委员会主任、智源研究院学术副院长唐杰教授介绍了“悟道”模型的战略布局及阶段性成果。据介绍,“悟道 1.0”先期启动了 4 个大模型的研发。


图:智源学术副院长唐杰 介绍”悟道”大模型团队

1.悟道·文源:面向中文的预训练语言模型


“悟道·文源”是“以中文为核心的大规模预训练模型”,目标是构建完成全球规模最大的以中文为核心的预训练语言模型,在中英文等多个世界主流语言上取得最好的处理能力,在文本分类、情感分析、自然语言推断、阅读理解等多个任务上超越人类平均水平,探索具有通用能力的自然语言理解技术,并进行脑启发的语言模型研究。


目前,“悟道·文源”模型参数量达 26 亿,具有识记、理解、检索、数值计算、多语言等多种能力,并覆盖开放域回答、语法改错、情感分析等 20 种主流中文自然语言处理任务,技术能力已与 GPT-3 实现齐平,达到现有中文生成模型的领先效果。

2.悟道·文澜:首个公开的中文通用图文多模态预训练模型


“悟道·文澜”是“超大规模多模态预训练模型”,目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题,并最终生成产业级中文图文预训练模型和应用,并在多个评测应用上超过国际最高性能。


目前,“悟道·文澜”模型参数量达 10 亿,基于从公开来源收集到的 5000 万个图文对上进行训练,是首个公开的中文通用图文多模态预训练模型。 目前,该模型性能已到达国际领先水平,在中文公开多模态测试集 AIC-ICC 的图像生成描述任务中,得分比冠军队高出 5%;在图文互检任务中,得分比目前最流行的 UNITER 模型高出 20%。


“悟道·文澜”模型已对外开放 API。发布会上,为了展示如何使用“悟道·文澜”模型,智源研究院联合中国人民大学高瓴人工智能学院和一览群智公司,推出了两款基于该模型的小应用,其中“赋魂”AI 小程序,可以为用户上传的照片配文,“AI 心情电台”小程序可以利用图片和歌词的相关性,为用户上传的照片搭配最合拍的音乐。


图:“悟道·文澜”模型根据图片自动搭配歌曲

3.悟道·文汇: 我国首个具有认知能力的超大规模预训练模型


“悟道·文汇”为“面向认知的超大规模新型预训练模型”,致力于从认知的角度研究通用人工智能中一系列更本质问题,侧重进一步提升和发展预训练模型基于逻辑、意识和推理的认知能力,目标是研发出千亿至万亿级别参数量的、更通用且性能超越国际水平的预训练模型,搭建预训练模型体系,同时形成认知智能生态。


目前,“悟道·文汇”模型的参数规模达 113 亿,在多项任务中“悟道·文汇”的表现已经接近突破图灵测试,通过简单微调就已经实现 AI 作诗、AI 作图、AI 制作视频、图文生成、图文检索、复杂推理。


例如,“悟道·文汇”模型可以应用在电商行业自动撰写商品文案等场景,在阿里电商场景下进行微调,输入以下图片。


“悟道·文汇”模型可以生成以下文字:


旗袍是一种古典的风格,它不仅能够彰显出女性优雅气质,而且还具有很好的修饰身形。这款旗袍采用了经典的圆领设计,穿着舒适自在,同时又能够展现出女性柔美的颈部线条,让你更加的迷人。精致的绣花工艺,使得整件衣服看起来更加的精致,也更加的凸显出女性的魅力。



图:“悟道·文汇”模型基于图片自动撰写商品文案


另外,“悟道·文汇”在图灵测试中已取得接近人类的作诗水平。



图:“悟道·文汇”模型实现的自动作诗


“悟道·文汇”模型还可以实现“以文生图”,自动作画。


图:“悟道·文汇”模型实现的“以文生图”

4.悟道·文溯:超大规模蛋白质序列预测预训练模型


“悟道·文溯”是“超大规模蛋白质序列预测预训练模型”,最终目标是以基因领域认知图谱为指导,研发出十亿参数规模、可以处理超长蛋白质序列的超大规模预训练模型,在基本性能、可解释性和鲁棒性等多个方面达到世界领先水平。


目前,“悟道·文溯”已在蛋白质方面完成基于 100GB UniParc 数据库训练的 BERT 模型,在基因方面完成基于 5-10 万规模的人外周血免疫细胞(细胞类型 25-30 种)和 1 万耐药菌的数据训练,同时搭建训练软件框架并验证其可扩展性。


据唐杰教授介绍,此次发布的“悟道”大模型 1.0 版本,已经完成了百亿和千亿参数规模的预训练,在多个国际评测中取得世界第一,在部分任务上具有一定认知能力。今年,还将陆续发布后续迭代版本,面向产业界开放使用。

“悟道 1.0”:构建了超大规模预训练模型技术体系


在科研方面,“悟道 1.0”模型正在逐步搭建并完善超大规模预训练模型技术体系,取得了多项国际领先的 AI 技术的突破。

1. 基础性能方面,在自然语言理解和生成、跨视觉和文字的理解与检索等多项任务上取得更好表现


(1)“悟道·文汇”提出了全新的预训练范式 GLM,以生成为核心,打破 BERT 和 GPT 瓶颈,历史上首次实现单一模型在理解、生成、seq2seq 三种任务上取得最优效果;相同训练量下,超越 BERT、RoBERTa、T5 等常见预训练模型。


(2)“悟道·文澜”发布首个公开中文通用图文多模态预训练模型,能够懂得基于图文弱相关的“内涵信息”。

2. 针对预训练模型有效使用,提出高效算法


(1)“悟道·文汇”提出基于连续向量的微调方法 P-Tuning,历史上首次实现自回归模型在理解任务上超越自编码模型,并在知识抽取(LAMA)、少样本学习(Superglue Fewshot)等 10 多个任务上取得世界第一,性能提升超 20%;


(2)“悟道·文汇”提出 Inverse Prompting 算法,显著改善了对语言模型生成结果的控制,效果大幅度超越当前最好方法,在问答和诗歌生成任务中接近人类水平,并首次实现根据现代题材创作古体诗;


(3)“悟道·文源”发布开源的中文预训练模型 CPM,并进一步开源了微调算法代码。以此为基础的模型蒸馏技术 CPM-Distill,实现语言困惑度降低 38%,在下游任务上获更好效果;


(4)“悟道·文澜”不同于 OpenAI 的 CLIP 模型,采用更先进的跨模态对比学习算法:给定某一图文对,基于 MoCo 思想,对每种模态扩大负样本数目,特别是区分难度大的负样本,进一步提高神经网络的表达能力。

3. 进一步实现规模和性能的扩增中面临的挑战


(1)“悟道·文溯”发布并开源了万亿参数模型训练的基石 FastMoE,是首个支持 PyTorch 框架的高性能 MoE(混合专家模型)系统,不再受限于谷歌软硬件,支持多种硬件,只需一行代码即可完成 MoE 化改造,相比传统 PyTorch 实现,模型训练速度提升 47 倍;


(2)“悟道·文澜”可以方便地把图像和文本的编码器替换成最先进的单模态预训练模型,随即达到增大模型表达能力的目的,在预测阶段,速度是 UNITER 模型的 20 倍,容易部署。

4. 建设并开放了全球最大中文语料数据库 WuDaoCorpora


WuDaoCorpora 数据集的数据规模达 2TB,超出之前全球最大的中文语料库 CLUECorpus2020 十倍以上,同时着重去除了数据中包含的隐私信息,防止了隐私泄露。另外,WuDaoCorpora 的数据来源丰富,包括新闻咨询、评论、百科、论坛、博客、学术论文等,使得该数据集能够适用于不同种类的自然语言处理任务,训练出的模型泛化性更强。此外,WuDaoCorpora 数据标签的完备性较高,语料中包含医疗、法律、金融等领域标签,可以依据需求抽取某个特定领域的数据,用于训练该领域的模型,也可以用于对大模型进行微调,构建某一特定领域的应用。


该数据集不仅为“悟道”项目提供了数据支撑,还可被用于中文自然语言处理领域的多种任务模型训练,包括文本生成模型、词嵌入模型、问答对话模型等,对于国际自然语言处理领域的发展将有着积极的促进作用。

应用生态“三步走”:探索“悟道”大模型生态发展


在模型研发的同时,智源研究院也在同步探索“悟道”模型的应用生态建设模式。据唐杰教授介绍,后续“悟道”模型将以开放 API(应用程序接口)的形式对外提供服务,用户通过申请并经授权后可以基于模型 API 开发各类智能化应用。另外,也会开源模型的社区版本。

图:智源研究院学术副院长 唐杰


唐杰教授介绍,下一步,“悟道”模型应用生态建设分为三个主要阶段,分别关注示范应用、API 生态及社区运营维护等。


第一阶段为示范性应用搭建,将构建面向电子商务、智能文本服务、垂直领域以及数个独立的示范性应用,将开放几个高质量的应用 Demo,支持用户在平台页面上使用及测试。第二阶段为 API 及平台生态构建,将设计多个 API,支持对模型的不同请求方式,构建支持高并发、高速推理的 API 接口,分别支持企业级用户、个人独立开发者对模型或特定功能的请求。第三阶段为社区运营及迭代,将逐步增量扩大在线评测,构建开发者及使用者社区,建立完善的使用反馈机制,并作为模型迭代的参考标准,同时加强社区维护及管理,加快模型迭代。


目前,智源研究院已启动第一阶段的示范性应用搭建,正与快手、搜狗、360、阿里、智谱华章、一览群智、循环智能、新华社等机构就模型的应用进行洽谈,联合构建一批工业级示范性应用。


下一步,智源研究院将加强用户的开发,做好用户服务,与 AI 龙头企业共同研发更多工业级示范性应用,并将加快推动 API 生态构建及社区运营迭代工作,通过举办学术交流、技术挑战赛等活动提高“悟道”模型的影响力,吸引更多 AI 企业、研究机构、个人开发者等开展基于模型的应用开发工作,推动构建国际领先的超大规模智能模型应用生态。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-03-21 11:442930

评论

发布
暂无评论
发现更多内容

Apache Dubbo 首个 Node.js 3.0-alpha 版本正式发布

阿里巴巴云原生

阿里云 云原生 dubbo

文本识别工具 TextSniper 免激活最新版

胖墩儿不胖y

OCR截图文字识别工具 OCR识别

PPT制作软件哪个好?各种类型的10款好用PPT软件盘点!

彭宏豪95

效率 PPT PPT模板 办公软件 效率办公

秒合约丨永续合约丨交易所系统开发方案

V\TG【ch3nguang】

Grafana 10 新特性解读:体验与协作全面提升

阿里巴巴云原生

阿里云 云原生 Grafana

多功能记事本 Notebooks for Mac激活最新版

mac大玩家j

Mac软件 笔记软件 笔记本工具

CODING 界面全新升级,代码仓库 Rebase 变基合并、批量复制事项等功能上线!

CODING DevOps

一文吃透零代码、低代码和aPaaS系统

这我可不懂

低代码 零代码 aPaaS

永续杠杆合约交易/系统程序开发/合约策略跟单/秒合约交易源码模型

V\TG【ch3nguang】

蓝易云:介绍Nginx、正向代理和实现反向代理的两个实例

百度搜索:蓝易云

nginx 云计算 Linux 运维 Web

蓝易云:ubuntu编译安装pcl教程。

百度搜索:蓝易云

云计算 Linux ubuntu 运维 PCL

智能量化合约跟单系统开发技术/量化交易/合约跟单交易

V\TG【ch3nguang】

Python 集合(Sets)3

小万哥

Python 程序员 软件 后端 开发

Linux桌面环境(桌面系统)

智趣匠

低代码平台为企业应用开发提速

树上有只程序猿

低代码

现货期权合约量化/量化合约/秒合约/永续合约/交易所系统开发(开发案例及源码)

V\TG【ch3nguang】

Chrome 118 版本中的新功能

南城FE

CSS chrome 前端 浏览器

手把手带你用Python和文心一言搭建《AI看图写诗》网页项目

袁袁袁袁满

Python 人工智能

高规格、高并发、即开即用:和鲸携手北中医,打造 AI 人才选拔的最佳实践

ModelWhale

人工智能 大数据 高等教育 人才选拔 实践考核

Cloud Kernel SIG 月度动态:发布多个 ANCK 版本,引入多个第三方硬件驱动

OpenAnolis小助手

Linux 龙蜥社区 anck kernel 龙蜥sig

1000字扫盲RTC

X2Rtc

开源 音视频 CDN RTC

苹果上架常见问题-appstore开发者名称修改

雪奈椰子

统一观测丨使用 Prometheus 监控 SQL Server 最佳实践

阿里巴巴云原生

阿里云 云原生 Prometheus

是否拥有具身智能,是扫地机器人能否打破“内卷”的关键

脑极体

AI 智能扫地机器人

音频技术团队空降直播间,揭秘小红书语音技术创新探索与落地实践

小红书技术REDtech

音频 #人工智能

低代码:避免重复造轮子的高效工具

互联网工科生

低代码 造轮子 JNPF

鹅厂练习 13 年 Coding 后,我悟了

CODING DevOps

如何通过 NFTScan API 按照 NFT 合约地址检索数据?

NFT Research

NFT NFT\ NFTScan

全力以赴,火山引擎边缘云代表团出战亚运会

火山引擎边缘云

电竞 边缘云 边缘云原生 亚运会

golang面试基础-sync.map

Quincy

golang 数据结构 面试 后端

VR虚拟现实:技在医疗行业的具体应用

3DCAT实时渲染

VR虚拟现实

智源研究院发布我国首个超大规模智能模型“悟道1.0”,人工智能迈向“炼大模型”阶段_AI&大模型_智源研究院_InfoQ精选文章