写点什么

不要指望下一个像 GPT 这样的大型语言模型会民主化

  • 2022-09-26
    北京
  • 本文字数:2664 字

    阅读完需:约 9 分钟

不要指望下一个像GPT这样的大型语言模型会民主化

5 月初,Meta 公司发布了 Open Pretrained Transformer(OPT-175B),这是一个可以执行各种任务的大型语言模型(LLM)。在过去几年中,大型语言模型已经成为人工智能研究最热门的领域之一。


本文最初发布于 TeckTalks。


OPT-175B是由 OpenAI 的GPT-3引发的 LLM 军备竞赛的最新参与者。GPT-3 是一种具有 1750 亿个参数的深度神经网络。GPT-3 表明,LLM 可以在没有任何额外训练以及只学习几个样本(零样本或小样本学习)的情况下完成许多任务。微软后来将 GPT-3 集成到了它的几个产品中,不仅展示了 LLM 在科学研究上的前景,也展示了其在商业应用上的前景。


让 OPT-175B 与众不同的是 Meta 对“开放性”的承诺,正如模型的名字所暗示的那样。Meta 已经向公众提供了这个模型(以及一些注意事项),它还公布了大量关于训练和开发过程的细节。在 Meta AI 博客上发表的一篇文章中,该公司将 OPT-175B 的发布描述为“大规模语言模型的民主化访问”。


Meta 朝着透明的方向发展值得称赞。然而,大型语言模型的竞争已经达到了无法再民主化的地步。

关于该大型语言模型的几个细节


Meta 发布的 OPT-175B 有一些关键特性,包括预训练的模型以及训练和使用 LLM 所需的代码。对于没有计算资源用于训练模型的组织,预训练模型特别有用(训练神经网络比运行它们消耗的资源更多)。它有助于减少训练大型神经网络所需的计算资源所造成的巨大碳排放量。


GPT-3一样,OPT 也有不同的大小,参数从 1.25 亿到 1750 亿不等(参数越多模型学习能力越强)。在撰写本文时,OPT-30B 以下的所有模型都已提供下载。拥有全部 1750 亿个参数的模型将仅提供给被选中的研究人员和机构(他们需要填写一张申请表)。


根据 Meta AI 博客,“为了保持完整性和防止滥用,我们将在非商业许可下发布我们的模型,专注于研究用例。该模型将授权给学术研究人员,与政府、民间团体和学术机构有关的组织,以及世界各地的行业研究实验室。”


除了模型,Meta 还发布了一份完整的日志,提供了关于该大型语言模型开发和训练过程的详细的技术时间线。通常,发表的论文只包含最终模型的信息。Meta 表示,该日志提供了一些有价值的信息,包括“用于训练 OPT-175B 的计算资源的数量,以及当底层基础设施或训练过程本身因为规模太大而变得不稳定时所需的人力开销。”

与 GPT-3 比较


Meta 公司在其博文中指出,大型语言模型大多是通过“付费 API”访问的,对 LLM 的限制性访问“限制了研究人员了解这些大型语言模型如何工作以及为何有效的能力,妨碍了他们提高模型鲁棒性以及缓解偏见和数据中毒等已知的问题”。


这对于 OpenAI(以及微软的独家 GPT-3 许可)无疑是一记重击,后者将 GPT-3 作为黑盒 API 服务发布,而不是将其模型权重和源代码公开。OpenAI 没有公开 GPT-3 的原因之一是控制有害应用程序的滥用和开发。


Meta 相信,把模型提供给更广泛的受众,他们将可以更好地研究和预防它们可能造成的任何伤害。


Meta 是这样描述这项工作的:“我们希望,OPT-175B 将为大型语言模型创建前沿带来更多的声音,帮助社区共同设计负责任的发布策略,并为该领域大型语言模型的开发增加前所未有的透明度和开放性。”

大型语言模型的成本


然而,值得注意的是,“透明和开放”并不等同于“民主化大型语言模型”。训练、配置和运行大型语言模型的成本仍然很高,而且未来可能还会增长。


根据 Meta 的博文,模型的研究人员已经大幅降低了训练大型语言模型的成本。该公司表示,这个模型的碳排放量已减少到 GPT-3 的七分之一。据我之前采访过的专家估计,GPT-3 的训练成本高达 2760 万美元。


这意味着,OPT-175B 的训练成本仍将高达数百万美元。幸运的是,预训练的模型可以避免模型训练过程,并且 Meta 表示,他们将提供“只使用 16 块 NVIDIA V100 GPU”就可以完成整个模型训练和部署的代码库。这相当于一台英伟达(Nvidia)DGX-2,成本约为 40 万美元。对于资金紧张的研究实验室或个体研究人员来说,这不是一个小数目。(根据一篇提供了更多 OPT-175B 细节的论文,Meta 使用 992 块 A100 80GB GPU 训练了自己的模型,这款 GPU 明显比 V100 快。)


Meta AI 的日志进一步证实,训练大型语言模型是一项非常复杂的任务。OPT-175B 的时间线上到处都是服务器崩溃、硬件故障和其他需要高级技术人员才能解决的并发症。研究人员还不得不多次重启训练过程,调整超参数,修改损失函数。所有这些都会产生小型实验室无法承担的额外费用。

大型语言模型的未来


语言模型如 OPT 和 GPT 都是基于转换器架构的。转换器的关键特性之一是它们能够大规模地并行处理海量时序数据(如文本)。


近年来,研究人员已经证明,增加转换器模型的层数和参数,可以提高它们在语言任务上的性能。一些研究人员认为,达到更高的智能水平只是一个规模问题。因此,像 Meta AI、DeepMind(由 Alphabet 拥有)和 OpenAI(由微软支持)这样现金充足的研究实验室正在朝着创建越来越大的神经网络前进。


某人的观点文章。我的看法是:现在都是规模问题了!游戏结束了!现在只要让这些模型更大、更安全、计算效率更高、采样更快、记忆更智能、模式更多样、数据更有创新性,无论在线还是离线......1/N https://t.co/UJxSLZGc71

—— Nando de Freitas(@NandoDF)


去年,微软和英伟达创建了一个有 5300 亿个参数的语言模型,名为 Megatron-Turing (MT-NLG)。上个月,谷歌推出了路径语言模型(PaLM)。这是一个有 5400 亿个参数的 LLM。有传言称,OpenAI 将在未来几个月发布 GPT-4。


然而,神经网络越大需要的财政和技术资源也越多。虽然更大的语言模型会带来新的东西(和新的问题),但不可避免地,它们将把权力集中在少数富有的公司手中,使得较小的研究实验室和独立的研究人员更难研究大型语言模型了。


在商业方面,大型科技公司将拥有更大的优势。运行大型语言模型是非常昂贵和具有挑战性的。像谷歌和微软这样的公司有特殊的服务器和处理器,他们能够大规模运行这些模型并从中获利。对于比较小的公司来说,运行自己的 LLM(如 GPT-3)版本开销太大了。正如大多数企业使用云托管服务,而不是构建自己的服务器和数据中心一样,随着大型语言模型变得越来越流行,像 GPT-3 API 这样的开箱即用系统将越来越有吸引力。


这反过来又会使人工智能进一步集中在大型科技公司的手中。越来越多的人工智能研究实验室将不得不与大型科技公司建立合作伙伴关系,以获得资助。而这将使大型科技公司有更多的权力来决定人工智能研究的未来方向(这可能会与他们的经济利益相一致)。这可能要以那些短期内无法产生投资回报的研究领域为代价。


最后,当我们庆祝 Meta 为 LLM 带来透明度的时候,请不要忘记,大型语言模型本质上就是不民主的,而是有利于推广它们的公司。


英文原文:Can large language models be democratized?

2022-09-26 08:204837

评论

发布
暂无评论
发现更多内容

被赶出自己公司的40岁程序员,为Coder们写了个网站--程序员福利网

程序员福利网老骨

程序员 导航网站

在 Flutter 中使用交错网格视图创建瀑布流布局

坚果

flutter 1月月更

仅有0.1M可训参数,AIOps日志异常检测新范式

云智慧AIOps社区

AI 算法 异常检测 智能运维 日志解析

终于“打造”出了一个可以随时随地编程的工具

老表

Python Linux 服务器 跟老表学云服务器

ReactNative进阶(十五):应用 react-native-tab-navigator 实现底部导航栏

No Silver Bullet

​React Native 1月月更 底部导航

深入理解MySQL的binlog

JavaEdge

1月月更

Go 语言快速入门指南:Go 语言解析JSON

宇宙之一粟

Go json 1月月更

Hibernate 的 HHH90000022 警告

HoneyMoose

从技术新趋势到云原生应用开发,云计算下一个十年将走向何方

亚马逊云科技 (Amazon Web Services)

计算

混沌工程之ChaosBlade-Operator 使用之模拟 POD 丢包场景

zuozewei

性能测试 混沌工程 ChaosBlade 1月月更

【架构实战营】模块九作业

Geek_99eefd

架构实战营 「架构实战营」

java开发面试之Redis高并发处理

@零度

redis JAVA开发

怎么访问到别人的电脑?

你?

小白都能吃透Java IOl流,最骚最全笔记,没有之一!1️⃣

XiaoLin_Java

Java io 基础 1月月更

手机APP消息推送极光推送jpush-php实例

Owen Zhang

极光推送 jpush-php实例

TDSQL 2021:致未来的年终总结

腾讯云数据库

tdsql 国产数据库

13 Prometheus之云时代的监控目标及挑战

穿过生命散发芬芳

运维 监控 Prometheus 1月月更

雷霆传奇H5光柱版游戏详细图文架设教程

echeverra

游戏

“爆到天际线” - TiDB 2021 Hackathon 决赛不负责任点评

PingCAP

类脑计算技术领域领导者灵汐科技加入龙蜥社区,共同繁荣开源生态

OpenAnolis小助手

Linux 开源 芯片 生态

公开啦!「2021中国技术品牌影响力企业 」OceanBase 成功上榜

OceanBase 数据库

数据库 开源 开发者 OceanBase 开源 技术品牌

聊聊Netty那些事儿之Reactor在Netty中的实现(创建篇)

bin的技术小屋

网络编程 socket nio netty java 编程

黑客技能:xss攻击入门

喀拉峻

黑客 网络安全 XSS 渗透测试

Spring Boot Admin,贼好使!

王磊

springboot

再一次重构云计算底座, Amazon Graviton3!

亚马逊云科技 (Amazon Web Services)

计算

深入 MySQL 索引:从数据结构到具体使用

Ayue、

MySQL 数据库 1月月更

KubeMeet 直播 | 现场直击大规模集群、混合环境下的云原生应用交付难题

阿里巴巴云原生

阿里云 云原生 KubeMeet 交付 直播活动

1月月更|推荐学java——MyBatis高级

逆锋起笔

mybatis SSM框架 java 编程 动态SQL

基于云上 Arm 架构赋能数值天气预报

亚马逊云科技 (Amazon Web Services)

计算

不要指望下一个像GPT这样的大型语言模型会民主化_AI&大模型_Ben Dickson_InfoQ精选文章