写点什么

不要指望下一个像 GPT 这样的大型语言模型会民主化

  • 2022-09-26
    北京
  • 本文字数:2664 字

    阅读完需:约 9 分钟

不要指望下一个像GPT这样的大型语言模型会民主化

5 月初,Meta 公司发布了 Open Pretrained Transformer(OPT-175B),这是一个可以执行各种任务的大型语言模型(LLM)。在过去几年中,大型语言模型已经成为人工智能研究最热门的领域之一。


本文最初发布于 TeckTalks。


OPT-175B是由 OpenAI 的GPT-3引发的 LLM 军备竞赛的最新参与者。GPT-3 是一种具有 1750 亿个参数的深度神经网络。GPT-3 表明,LLM 可以在没有任何额外训练以及只学习几个样本(零样本或小样本学习)的情况下完成许多任务。微软后来将 GPT-3 集成到了它的几个产品中,不仅展示了 LLM 在科学研究上的前景,也展示了其在商业应用上的前景。


让 OPT-175B 与众不同的是 Meta 对“开放性”的承诺,正如模型的名字所暗示的那样。Meta 已经向公众提供了这个模型(以及一些注意事项),它还公布了大量关于训练和开发过程的细节。在 Meta AI 博客上发表的一篇文章中,该公司将 OPT-175B 的发布描述为“大规模语言模型的民主化访问”。


Meta 朝着透明的方向发展值得称赞。然而,大型语言模型的竞争已经达到了无法再民主化的地步。

关于该大型语言模型的几个细节


Meta 发布的 OPT-175B 有一些关键特性,包括预训练的模型以及训练和使用 LLM 所需的代码。对于没有计算资源用于训练模型的组织,预训练模型特别有用(训练神经网络比运行它们消耗的资源更多)。它有助于减少训练大型神经网络所需的计算资源所造成的巨大碳排放量。


GPT-3一样,OPT 也有不同的大小,参数从 1.25 亿到 1750 亿不等(参数越多模型学习能力越强)。在撰写本文时,OPT-30B 以下的所有模型都已提供下载。拥有全部 1750 亿个参数的模型将仅提供给被选中的研究人员和机构(他们需要填写一张申请表)。


根据 Meta AI 博客,“为了保持完整性和防止滥用,我们将在非商业许可下发布我们的模型,专注于研究用例。该模型将授权给学术研究人员,与政府、民间团体和学术机构有关的组织,以及世界各地的行业研究实验室。”


除了模型,Meta 还发布了一份完整的日志,提供了关于该大型语言模型开发和训练过程的详细的技术时间线。通常,发表的论文只包含最终模型的信息。Meta 表示,该日志提供了一些有价值的信息,包括“用于训练 OPT-175B 的计算资源的数量,以及当底层基础设施或训练过程本身因为规模太大而变得不稳定时所需的人力开销。”

与 GPT-3 比较


Meta 公司在其博文中指出,大型语言模型大多是通过“付费 API”访问的,对 LLM 的限制性访问“限制了研究人员了解这些大型语言模型如何工作以及为何有效的能力,妨碍了他们提高模型鲁棒性以及缓解偏见和数据中毒等已知的问题”。


这对于 OpenAI(以及微软的独家 GPT-3 许可)无疑是一记重击,后者将 GPT-3 作为黑盒 API 服务发布,而不是将其模型权重和源代码公开。OpenAI 没有公开 GPT-3 的原因之一是控制有害应用程序的滥用和开发。


Meta 相信,把模型提供给更广泛的受众,他们将可以更好地研究和预防它们可能造成的任何伤害。


Meta 是这样描述这项工作的:“我们希望,OPT-175B 将为大型语言模型创建前沿带来更多的声音,帮助社区共同设计负责任的发布策略,并为该领域大型语言模型的开发增加前所未有的透明度和开放性。”

大型语言模型的成本


然而,值得注意的是,“透明和开放”并不等同于“民主化大型语言模型”。训练、配置和运行大型语言模型的成本仍然很高,而且未来可能还会增长。


根据 Meta 的博文,模型的研究人员已经大幅降低了训练大型语言模型的成本。该公司表示,这个模型的碳排放量已减少到 GPT-3 的七分之一。据我之前采访过的专家估计,GPT-3 的训练成本高达 2760 万美元。


这意味着,OPT-175B 的训练成本仍将高达数百万美元。幸运的是,预训练的模型可以避免模型训练过程,并且 Meta 表示,他们将提供“只使用 16 块 NVIDIA V100 GPU”就可以完成整个模型训练和部署的代码库。这相当于一台英伟达(Nvidia)DGX-2,成本约为 40 万美元。对于资金紧张的研究实验室或个体研究人员来说,这不是一个小数目。(根据一篇提供了更多 OPT-175B 细节的论文,Meta 使用 992 块 A100 80GB GPU 训练了自己的模型,这款 GPU 明显比 V100 快。)


Meta AI 的日志进一步证实,训练大型语言模型是一项非常复杂的任务。OPT-175B 的时间线上到处都是服务器崩溃、硬件故障和其他需要高级技术人员才能解决的并发症。研究人员还不得不多次重启训练过程,调整超参数,修改损失函数。所有这些都会产生小型实验室无法承担的额外费用。

大型语言模型的未来


语言模型如 OPT 和 GPT 都是基于转换器架构的。转换器的关键特性之一是它们能够大规模地并行处理海量时序数据(如文本)。


近年来,研究人员已经证明,增加转换器模型的层数和参数,可以提高它们在语言任务上的性能。一些研究人员认为,达到更高的智能水平只是一个规模问题。因此,像 Meta AI、DeepMind(由 Alphabet 拥有)和 OpenAI(由微软支持)这样现金充足的研究实验室正在朝着创建越来越大的神经网络前进。


某人的观点文章。我的看法是:现在都是规模问题了!游戏结束了!现在只要让这些模型更大、更安全、计算效率更高、采样更快、记忆更智能、模式更多样、数据更有创新性,无论在线还是离线......1/N https://t.co/UJxSLZGc71

—— Nando de Freitas(@NandoDF)


去年,微软和英伟达创建了一个有 5300 亿个参数的语言模型,名为 Megatron-Turing (MT-NLG)。上个月,谷歌推出了路径语言模型(PaLM)。这是一个有 5400 亿个参数的 LLM。有传言称,OpenAI 将在未来几个月发布 GPT-4。


然而,神经网络越大需要的财政和技术资源也越多。虽然更大的语言模型会带来新的东西(和新的问题),但不可避免地,它们将把权力集中在少数富有的公司手中,使得较小的研究实验室和独立的研究人员更难研究大型语言模型了。


在商业方面,大型科技公司将拥有更大的优势。运行大型语言模型是非常昂贵和具有挑战性的。像谷歌和微软这样的公司有特殊的服务器和处理器,他们能够大规模运行这些模型并从中获利。对于比较小的公司来说,运行自己的 LLM(如 GPT-3)版本开销太大了。正如大多数企业使用云托管服务,而不是构建自己的服务器和数据中心一样,随着大型语言模型变得越来越流行,像 GPT-3 API 这样的开箱即用系统将越来越有吸引力。


这反过来又会使人工智能进一步集中在大型科技公司的手中。越来越多的人工智能研究实验室将不得不与大型科技公司建立合作伙伴关系,以获得资助。而这将使大型科技公司有更多的权力来决定人工智能研究的未来方向(这可能会与他们的经济利益相一致)。这可能要以那些短期内无法产生投资回报的研究领域为代价。


最后,当我们庆祝 Meta 为 LLM 带来透明度的时候,请不要忘记,大型语言模型本质上就是不民主的,而是有利于推广它们的公司。


英文原文:Can large language models be democratized?

2022-09-26 08:204785

评论

发布
暂无评论
发现更多内容

银行应将低代码能力作为在评估厂商综合能力的一个维度

易观分析

低代码 银行

phpstorm 配置 Xdebug 调试

CRMEB

web前端培训Vue3 TypeScript 如何实现useRequest

@零度

Vue 前端开发

虚拟机是什么?跟堡垒机有哪些区别?

行云管家

虚拟机 堡垒机

OpenYurt v0.7.0 版本解读:无侵入的跨网络域解决方案 Raven

阿里巴巴云原生

阿里云 开源 云原生 边缘计算 openyurt

高校学生请注意:想成为技术大牛,参加这个计划就够了!

科技热闻

开发技术指南 | 最全 Substrate 与 Polkadot 技术文档、教程、课程

One Block Community

区块链 技术 波卡生态

java培训SpringBoot 中的各种参数校验

@零度

JAVA开发 springboot

详解GaussDB(DWS)的CPU资源隔离管控能力

华为云开发者联盟

数据库 cpu GaussDB 资源管控

Docker容器:将带UI的程序直接转为Web应用,so easy

华为云开发者联盟

云计算 后端 Docker容器 Web应用

校企融合,打造金融科技应用人才高地

非凸科技

校企合作 非凸

架构的尽头是架构师

IT民工大叔

架构师

【linux运维】linux运维会被淘汰吗?会消失在云计算中吗?

行云管家

云计算 IT运维 云运维

“技术商人”溯源考

IT民工大叔

华为 工程师 任正非讲话 商业意识 复合型人才

CopyOnWriteArrayList 源码分析-其它方法

zarmnosaj

5月月更

大数据培训实时数仓实践以及架构的演进

@零度

数仓 大数据开发

快速上手vs2019

Loken

音视频 5月月更

LR.Net低代码开发平台 快速设计权限管理模块

力软低代码开发平台

墨天轮访谈 | 阿里云捷熙:AnalyticDB,人人可用的数据分析服务

墨天轮

数据库 阿里云 国产数据库

解读ICDE'22论文:基于鲁棒和可解释自编码器的无监督时间序列离群点检测算法

华为云开发者联盟

数据挖掘 数据库 时间序列 自动编码器

查询语句写了limit 1,为什么依然很慢?

华为云开发者联盟

后端 开发 计算引擎 limit 1

拯救工程师,远程开发C++的四大秘笈|视频教程

OneFlow

c++ 教程分享

企业电子文档管理需要注意的点及解决措施

小炮

文档管理

如视技术副总裁杨永林:当传统产业遇到“数字空间”

阿里云弹性计算

视觉计算 数字空间 VR看房

SREWorks持续交付云原生化: 镜像构建

阿里云大数据AI技术

大数据 运维 云原生

技术分享| 快对讲调度系统设计概要

anyRTC开发者

音视频 语音通话 调度 视频通话 快对讲

影视作品制作中不可或缺的技术支撑——云渲染技术

Finovy Cloud

服务器 云渲染 GPU算力

SAP UI5 框架的 manifest.json

汪子熙

前端开发 SAP Fiori SAP UI5 5月月更

浅析数字化转型与产业互联网

IT民工大叔

产业互联网 数字化转型

纪念左晖:敢为天下先(修订版)

IT民工大叔

产业互联网 数字化转型 企业家精神 左晖

第一次读 “Clean” 系列,并没有觉得这是一本多好的书

博文视点Broadview

不要指望下一个像GPT这样的大型语言模型会民主化_AI&大模型_Ben Dickson_InfoQ精选文章