1.6 万亿参数！谷歌训练一超级人工智能语言模型，相当于9个GPT-3_AI&大模型_KYLE WIGGERS

最新发布《数智时代的AI人才粮仓模型解读白皮书（2024版）》，立即领取! 了解详情 



 写点什么

参数是机器学习算法的关键。它们是模型的一部分，是从历史的训练数据中学到的。一般而言，在语言领域中，参数的数量和复杂度之间的相关性保持得非常好。举例来说，OpenAI 的 GPT-3，是有史以来训练过的最大的语言模型之一，就拥有 1750 亿个参数，它能够进行原始类比、生成食谱，甚至完成基本代码。

谷歌的研究人员开发出了一种基准测试方法，认为它能让他们训练出一个包含超过一万亿个参数的语言模型，这可能是迄今为止对这种相关性最全面的测试方法之一。他们表示，他们的 1.6 万亿参数模型，看起来是目前规模最大的，其速度比之前谷歌开发的最大语言模型（T5-XXL）提高了 4 倍。

正如研究人员在一篇详细介绍他们研究成果的论文中所指出的，大规模训练是获得强大模型的有效途径。在大数据集和参数数量的支持下，简单的架构超越了复杂的算法。但是，高效的大规模训练和密集的计算是关键。

正因为如此，研究人员才会追求所谓的 SwitchTransformer ——一种“稀疏激活”技术，即仅使用模型的权值子集，或仅转换模型中输入数据的参数。

Switch Transformer 建立在专家混合的基础上，这是 90 年代初首次提出的人工智能模型范式。大致的概念是，在一个更大的模型中保留多个专家，或者说是专门处理不同任务的模型，并且有一个“门控网络”为任何给定数据选择咨询哪些专家。

Switch Transformer 的新颖之处在于，它有效地利用了为密集矩阵乘法（广泛用于语言模型的数学运算）设计的硬件，如 GPU 和谷歌的张量处理单元（TPU）。

对于研究者来说，在分布式训练设置中，他们的模型会在不同的设备上拆分唯一的权重，这样权重就会随着设备数量的增加而增加，但是仍然可以管理每台设备的内存和计算轨迹。

其中一项实验，研究人员使用 32 个 TPU 内核对 Colossal Clean Crawled Corpus 预先训练出几种不同的 Switch Transformer 模型， Colossal Clean Crawled Corpus 是一组大小为 750 GB 的文本数据集，它们来自 Reddit、维基百科和其他网络资源。

研究人员为这些模型安排了任务，让它们预测那些 15% 的单词被掩蔽的段落中缺失的单词，以及其他一些挑战，例如通过检索文本来回答一系列日益困难的问题。

图片: https://uploader.shimo.im/f/cVuRzapGE2oAZNYS.png

研究人员声称，他们的 1.6 万亿参数模型（Switch-C），拥有 2048 名专家，显示出“完全没有训练不稳定性”，而更小的模型（Switch-XXL）包含 3950 亿个参数和 64 名专家。

但是，在一次基准测试中，Sanford Question Answering Dataset（SQuAD）的 Switch-C 的得分更低，只有 87.7；而 Switch-XXL 的得分为 89.6。研究人员将其归因于微调质量、计算要求和参数数量之间的关系不透明。

Switch Transformer 在这种情况下可以获得一些下游任务的收益。举例来说，据研究人员称，它在使用同样数量的计算资源的情况下，可以达到 7 倍以上的预训练速度，研究人员表示，可以用大的稀疏模型来创建更小的密集模型，对任务进行微调后，其质量可提高 30%。

其中一个测试是，Switch Transformer 模型被训练为在 100 多种不同的语言之间进行翻译，研究人员观察到 101 种语言“总体上都有提高”，91% 的语言的翻译速度是基准模型的 4 倍以上。

“尽管这项工作主要集中于极其庞大的模型，但是我们也发现，只需两个专家模型就可以提高性能，同时还可以在普通 GPU 或 TPU 的内存限制下轻松地进行拟合。”研究人员在论文中写道。“我们不能完全保持模型的质量，但是把稀疏的模型提炼成密集模型，可以达到 10 到 100 倍的压缩率，同时专家模型的质量提高约 30%。”

在未来的工作中，研究人员计划将 Switch Transformer 应用到“新的、跨不同模式”，包括图像和文本。他们认为，稀疏的模型可能会给不同媒体和多模态模型带来好处。

不幸的是，研究人员的工作没有考虑到这些大型语言模型在现实世界中的影响。语言模型经常会放大这些公共数据中编码的偏见；部分培训数据并非不常见，它们来自具有普遍性别、种族和宗教偏见的社区。

OpenAI 是一家人工智能研究公司，它指出，这可能导致把像“naughty”或“sucked”这样的词放在女性代词旁边，把“Islam”放在“terrorism”旁边。其他研究，英特尔、麻省理工学院以及加拿大人工智能项目 CIFAR 的研究人员在去年 4 月份发表了一份研究报告，报告指出，一些最流行的模型存在着很强的刻板印象，包括谷歌的 BERT 和 XLNet、OpenAI 的 GPT-2 和 Facebook 的 RoBERTa。

据 Middlebury Institute of International Studies 称，恶意行为者可能会利用这种偏见，通过传播错误信息、虚假信息和彻头彻尾的谎言来煽动不和谐，从而“使个人处于极端的极右思想和行为之中，成为暴力的个人”。

供参考 @mmitchell_ai 和我发现，九月份谷歌召开了一次关于 LLM 的会议，但是我们团队没有人被邀请或者知道这次会议。所以当他们决定在自己的 “操场”中做什么后，他们只希望人工智能的道德规范变成橡皮图章。https://t.co/tlT0tj1sTt— Timnit Gebru (@timnitGebru)2021 年 1 月 13 日

谷歌发布的机器学习研究的政策是否会在其中起到作用尚不清楚。去年年底，路透社报道说，该公司的研究人员在进行面部和情绪分析以及种族、性别或政治派别分类之前，现在需要咨询法律、政策和公关团队。

去年 12 月初，谷歌解雇了人工智能伦理学家 Timnit Gebru，据说部分原因是因为她的一篇关于大型语言模型的研究论文，其中讨论了这些模型的风险，包括其碳足迹对边缘群体的影响，以及持续存在的针对特定人群的性虐待语言、仇恨言论、微攻击、刻板印象和其他非人道主义语言的趋势。

作者介绍：

Kyle Wiggers，技术记者，现居美国纽约市，为 VentureBeat 撰写有关人工智能的文章。

原文链接：

https://venturebeat.com/2021/01/12/google-trained-a-trillion-parameter-ai-language-model/

公众号推荐：

跳进 AI 的奇妙世界，一起探索未来工作的新风貌！想要深入了解 AI 如何成为产业创新的新引擎？好奇哪些城市正成为 AI 人才的新磁场？《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造，为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者，还是对生成式 AI 充满好奇的新手，这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号，回复「开发者洞察」领取。

发布

暂无评论

创作场景

1.6 万亿参数！谷歌训练一超级人工智能语言模型，相当于 9 个 GPT-3

公众号推荐：

评论

一个合格的初级前端工程师需要掌握的模块笔记

RocketMQ-Spring 毕业两周年，为什么能成为 Spring 生态中最受欢迎的 messaging 实现？

Kubernetes安装篇（下）：基于Kubeadm方式的集群部署

口碑销量双爆的数据分析丛书再添新成员！

探索语言交互技术在政务数字化的应用

Elasticsearch+Fluentd+Kafka搭建日志系统

面试官：请讲一下Redis主从复制的功能及实现原理

Webpack | 如何提升构建速度，进行体积优化？

驱动力读书笔记之三

你会在车里唱K吗？ (28天写作 Day27/28)

信任从对自己诚实开始

Mybatis【18】-- Mybatis自关联多对一查询方式

回顾与总结 | 视频号28天（28）

让我们与内心聊聊，寻找一段思考发展之路。

【JS】异常处理

5步教你将MRS数据导入DWS

Spring Boot Admin 集成诊断利器 Arthas 实践

程序员成长第三篇：好的代码和好的工程师

速看！教育上云让学习战“疫”两不误

Spark Shuffle 内部机制（一）

统一数据管理工具——CloudQuery v1.3.3 上线！

如何快速上手 angular.js

如果生命的长度可以被改写「幻想短篇 27/28」

Elasticsearch Bulk API 奇特的 JSON 格式

Kafka架构介绍

区块链终将彻底改变医疗行业，但哪些因素制约当前的采用？

短信验证码被刷怎么办？java 短信验证码防刷策略分析

十倍效率背后的管理逻辑

人员培养，不是捷径的捷径（下）

为您收录的操作系统系列 - 进程管理（中篇）

区块链+电力，又擦出什么新火花？

创作场景

1.6 万亿参数！谷歌训练一超级人工智能语言模型，相当于 9 个 GPT-3

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载