NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

1.6 万亿参数!谷歌训练一超级人工智能语言模型,相当于 9 个 GPT-3

  • 2021-01-22
  • 本文字数:2321 字

    阅读完需:约 8 分钟

1.6 万亿参数!谷歌训练一超级人工智能语言模型,相当于9个GPT-3

参数是机器学习算法的关键。它们是模型的一部分,是从历史的训练数据中学到的。一般而言,在语言领域中,参数的数量和复杂度之间的相关性保持得非常好。举例来说,OpenAI 的 GPT-3,是有史以来训练过的最大的语言模型之一,就拥有 1750 亿个参数,它能够进行原始类比、生成食谱,甚至完成基本代码。


谷歌的研究人员开发出了一种基准测试方法,认为它能让他们训练出一个包含超过一万亿个参数的语言模型,这可能是迄今为止对这种相关性最全面的测试方法之一。他们表示,他们的 1.6 万亿参数模型,看起来是目前规模最大的,其速度比之前谷歌开发的最大语言模型(T5-XXL)提高了 4 倍。


正如研究人员在一篇详细介绍他们研究成果的论文中所指出的,大规模训练是获得强大模型的有效途径。在大数据集和参数数量的支持下,简单的架构超越了复杂的算法。但是,高效的大规模训练和密集的计算是关键。


正因为如此,研究人员才会追求所谓的 SwitchTransformer ——一种“稀疏激活”技术,即仅使用模型的权值子集,或仅转换模型中输入数据的参数。


Switch Transformer 建立在专家混合的基础上,这是 90 年代初首次提出的人工智能模型范式。大致的概念是,在一个更大的模型中保留多个专家,或者说是专门处理不同任务的模型,并且有一个“门控网络”为任何给定数据选择咨询哪些专家。


Switch Transformer 的新颖之处在于,它有效地利用了为密集矩阵乘法(广泛用于语言模型的数学运算)设计的硬件,如 GPU 和谷歌的张量处理单元(TPU)。


对于研究者来说,在分布式训练设置中,他们的模型会在不同的设备上拆分唯一的权重,这样权重就会随着设备数量的增加而增加,但是仍然可以管理每台设备的内存和计算轨迹。


其中一项实验,研究人员使用 32 个 TPU 内核对 Colossal Clean Crawled Corpus 预先训练出几种不同的 Switch Transformer 模型, Colossal Clean Crawled Corpus 是一组大小为 750 GB 的文本数据集,它们来自 Reddit、维基百科和其他网络资源。


研究人员为这些模型安排了任务,让它们预测那些 15% 的单词被掩蔽的段落中缺失的单词,以及其他一些挑战,例如通过检索文本来回答一系列日益困难的问题。


图片: https://uploader.shimo.im/f/cVuRzapGE2oAZNYS.png


研究人员声称,他们的 1.6 万亿参数模型(Switch-C),拥有 2048 名专家,显示出“完全没有训练不稳定性”,而更小的模型(Switch-XXL)包含 3950 亿个参数和 64 名专家。


但是,在一次基准测试中,Sanford Question Answering Dataset(SQuAD)的 Switch-C 的得分更低,只有 87.7;而 Switch-XXL 的得分为 89.6。研究人员将其归因于微调质量、计算要求和参数数量之间的关系不透明。


Switch Transformer 在这种情况下可以获得一些下游任务的收益。举例来说,据研究人员称,它在使用同样数量的计算资源的情况下,可以达到 7 倍以上的预训练速度,研究人员表示,可以用大的稀疏模型来创建更小的密集模型,对任务进行微调后,其质量可提高 30%。


其中一个测试是,Switch Transformer 模型被训练为在 100 多种不同的语言之间进行翻译,研究人员观察到 101 种语言“总体上都有提高”,91% 的语言的翻译速度是基准模型的 4 倍以上。


“尽管这项工作主要集中于极其庞大的模型,但是我们也发现,只需两个专家模型就可以提高性能,同时还可以在普通 GPU 或 TPU 的内存限制下轻松地进行拟合。”研究人员在论文中写道。“我们不能完全保持模型的质量,但是把稀疏的模型提炼成密集模型,可以达到 10 到 100 倍的压缩率,同时专家模型的质量提高约 30%。”


在未来的工作中,研究人员计划将 Switch Transformer 应用到“新的、跨不同模式”,包括图像和文本。他们认为,稀疏的模型可能会给不同媒体和多模态模型带来好处。


不幸的是,研究人员的工作没有考虑到这些大型语言模型在现实世界中的影响。语言模型经常会放大这些公共数据中编码的偏见;部分培训数据并非不常见,它们来自具有普遍性别、种族和宗教偏见的社区。


OpenAI 是一家人工智能研究公司,它指出,这可能导致把像“naughty”或“sucked”这样的词放在女性代词旁边,把“Islam”放在“terrorism”旁边。其他研究,英特尔、麻省理工学院以及加拿大人工智能项目 CIFAR 的研究人员在去年 4 月份发表了一份研究报告,报告指出,一些最流行的模型存在着很强的刻板印象,包括谷歌的 BERT 和 XLNet、OpenAI 的 GPT-2 和 Facebook 的 RoBERTa。


据 Middlebury Institute of International Studies 称,恶意行为者可能会利用这种偏见,通过传播错误信息、虚假信息和彻头彻尾的谎言来煽动不和谐,从而“使个人处于极端的极右思想和行为之中,成为暴力的个人”。


供参考 @mmitchell_ai 和我发现,九月份谷歌召开了一次关于 LLM 的会议,但是我们团队没有人被邀请或者知道这次会议。所以当他们决定在自己的 “操场”中做什么后,他们只希望人工智能的道德规范变成橡皮图章。https://t.co/tlT0tj1sTt— Timnit Gebru (@timnitGebru)2021 年 1 月 13 日


谷歌发布的机器学习研究的政策是否会在其中起到作用尚不清楚。去年年底,路透社报道说,该公司的研究人员在进行面部和情绪分析以及种族、性别或政治派别分类之前,现在需要咨询法律、政策和公关团队。


去年 12 月初,谷歌解雇了人工智能伦理学家 Timnit Gebru,据说部分原因是因为她的一篇关于大型语言模型的研究论文,其中讨论了这些模型的风险,包括其碳足迹对边缘群体的影响,以及持续存在的针对特定人群的性虐待语言、仇恨言论、微攻击、刻板印象和其他非人道主义语言的趋势。


作者介绍:


Kyle Wiggers,技术记者,现居美国纽约市,为 VentureBeat 撰写有关人工智能的文章。


原文链接:


https://venturebeat.com/2021/01/12/google-trained-a-trillion-parameter-ai-language-model/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-01-22 14:362649
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 494.0 次阅读, 收获喜欢 1967 次。

关注

评论

发布
暂无评论
发现更多内容

Apache Paimon 流式数据湖 V 0.4 与后续展望

Apache Flink

大数据 实时计算

隐私计算之浅谈联邦学习

天翼云开发者社区

隐私计算 数据孤岛

Pixologic ZBrush 2023 for Mac(三维数字雕刻软件)v2023.2.2中文版

mac

苹果mac Windows软件 Pixologic ZBrush 2023Z 数字雕刻软件

苹果账号被禁用怎么办?

雪奈椰子

用于共享大文件的4种大文件传输工具和软件

镭速

大文件传输软件

SpringBoot+Vue3打造企业级一体化PaaS系统

高端章鱼哥

Vue PaaS spring-boot JNPF

目前国内市场知名的可视化工具(2D/3D)

2D3D前端可视化开发

可视化 数据可视化 三维可视化 可视化工具 组态可视化

首批金融级行业云平台认证!天翼云实力再获权威认可!

天翼云开发者社区

云平台

基于大模型的数据血缘异常归因分析

奇点云

元数据 黑客马拉松 奇点云 对象体系

断点重传、错误自动重传,优秀的文件传输工具应该具备这些特性

镭速

文件传输 文件传输工具

与传统IT开发相比,低代码开发具备哪些优势?

互联网工科生

低代码 应用开发 私有化部署 可视化引擎 JNPF

为什么我们会对中国软件行业如此悲观?

ToB行业头条

文心一言 VS 讯飞星火 VS chatgpt (74)-- 算法导论7.2 2题

福大大架构师每日一题

福大大架构师每日一题

一种基于Nginx的热点数据调度处理方法

天翼云开发者社区

大数据

支付宝小程序云云测产品最佳实践

TRaaS

支付宝小程序 支付宝 IoT

MES系统可解决方案

万界星空科技

MES系统

涛思数据联合长虹佳华、阿里云 Marketplace 正式发布 TDengine Cloud

TDengine

tdengine 阿里云 时序数据库

基于Java开发的拿来即用的EHR系统

金陵老街

Java Vue 低代码

GaussDB(DWS)函数不同写法引发的结果差异

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

为什么我选择低代码开发这件事儿

这我可不懂

低代码开发 应用开发 代码生成器

Redis:揭秘高效缓存与数据存储利器

互联网工科生

redis 数据结构 数据存储

苹果账号被禁用怎么办?

如何选择适合自己的文件传输工具

镭速

文件传输 文件传输工具

基于卷积神经网络的MAE自监督方法

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 8 月 PK 榜

【您的意见很重要】天翼云文档“找茬”活动

天翼云开发者社区

云计算

AirServer 7 for Mac(Mac专用投屏工具) v7.2.6激活版

mac

AirServer 投屏软件 苹果mac Windows软件

卡奥斯团队参编信标委低代码路线图

Openlab_cosmoplat

开源

环路检测在风控领域的应用实践丨 Fabarta 技术专栏

Fabarta

大数据 算法 图分析 智能风控 风控算法

传统企业的智能化IPD(产品集成开发)转型

禅道项目管理

GitHub Actions?! 想说爱你不容易— 记一次 Release CI 重构经验

Greptime 格睿科技

GitHub 时序数据库 Github Action Release CI

书写自动智慧文本分类器的开发与应用:支持多分类、多标签分类、多层级分类和Kmeans聚类

汀丶人工智能

人工智能 nlp 文本分类 文本聚类

1.6 万亿参数!谷歌训练一超级人工智能语言模型,相当于9个GPT-3_AI&大模型_KYLE WIGGERS_InfoQ精选文章