写点什么

不要指望下一个像 GPT 这样的大型语言模型会民主化

  • 2022-09-26
    北京
  • 本文字数:2664 字

    阅读完需:约 9 分钟

不要指望下一个像GPT这样的大型语言模型会民主化

5 月初,Meta 公司发布了 Open Pretrained Transformer(OPT-175B),这是一个可以执行各种任务的大型语言模型(LLM)。在过去几年中,大型语言模型已经成为人工智能研究最热门的领域之一。


本文最初发布于 TeckTalks。


OPT-175B是由 OpenAI 的GPT-3引发的 LLM 军备竞赛的最新参与者。GPT-3 是一种具有 1750 亿个参数的深度神经网络。GPT-3 表明,LLM 可以在没有任何额外训练以及只学习几个样本(零样本或小样本学习)的情况下完成许多任务。微软后来将 GPT-3 集成到了它的几个产品中,不仅展示了 LLM 在科学研究上的前景,也展示了其在商业应用上的前景。


让 OPT-175B 与众不同的是 Meta 对“开放性”的承诺,正如模型的名字所暗示的那样。Meta 已经向公众提供了这个模型(以及一些注意事项),它还公布了大量关于训练和开发过程的细节。在 Meta AI 博客上发表的一篇文章中,该公司将 OPT-175B 的发布描述为“大规模语言模型的民主化访问”。


Meta 朝着透明的方向发展值得称赞。然而,大型语言模型的竞争已经达到了无法再民主化的地步。

关于该大型语言模型的几个细节


Meta 发布的 OPT-175B 有一些关键特性,包括预训练的模型以及训练和使用 LLM 所需的代码。对于没有计算资源用于训练模型的组织,预训练模型特别有用(训练神经网络比运行它们消耗的资源更多)。它有助于减少训练大型神经网络所需的计算资源所造成的巨大碳排放量。


GPT-3一样,OPT 也有不同的大小,参数从 1.25 亿到 1750 亿不等(参数越多模型学习能力越强)。在撰写本文时,OPT-30B 以下的所有模型都已提供下载。拥有全部 1750 亿个参数的模型将仅提供给被选中的研究人员和机构(他们需要填写一张申请表)。


根据 Meta AI 博客,“为了保持完整性和防止滥用,我们将在非商业许可下发布我们的模型,专注于研究用例。该模型将授权给学术研究人员,与政府、民间团体和学术机构有关的组织,以及世界各地的行业研究实验室。”


除了模型,Meta 还发布了一份完整的日志,提供了关于该大型语言模型开发和训练过程的详细的技术时间线。通常,发表的论文只包含最终模型的信息。Meta 表示,该日志提供了一些有价值的信息,包括“用于训练 OPT-175B 的计算资源的数量,以及当底层基础设施或训练过程本身因为规模太大而变得不稳定时所需的人力开销。”

与 GPT-3 比较


Meta 公司在其博文中指出,大型语言模型大多是通过“付费 API”访问的,对 LLM 的限制性访问“限制了研究人员了解这些大型语言模型如何工作以及为何有效的能力,妨碍了他们提高模型鲁棒性以及缓解偏见和数据中毒等已知的问题”。


这对于 OpenAI(以及微软的独家 GPT-3 许可)无疑是一记重击,后者将 GPT-3 作为黑盒 API 服务发布,而不是将其模型权重和源代码公开。OpenAI 没有公开 GPT-3 的原因之一是控制有害应用程序的滥用和开发。


Meta 相信,把模型提供给更广泛的受众,他们将可以更好地研究和预防它们可能造成的任何伤害。


Meta 是这样描述这项工作的:“我们希望,OPT-175B 将为大型语言模型创建前沿带来更多的声音,帮助社区共同设计负责任的发布策略,并为该领域大型语言模型的开发增加前所未有的透明度和开放性。”

大型语言模型的成本


然而,值得注意的是,“透明和开放”并不等同于“民主化大型语言模型”。训练、配置和运行大型语言模型的成本仍然很高,而且未来可能还会增长。


根据 Meta 的博文,模型的研究人员已经大幅降低了训练大型语言模型的成本。该公司表示,这个模型的碳排放量已减少到 GPT-3 的七分之一。据我之前采访过的专家估计,GPT-3 的训练成本高达 2760 万美元。


这意味着,OPT-175B 的训练成本仍将高达数百万美元。幸运的是,预训练的模型可以避免模型训练过程,并且 Meta 表示,他们将提供“只使用 16 块 NVIDIA V100 GPU”就可以完成整个模型训练和部署的代码库。这相当于一台英伟达(Nvidia)DGX-2,成本约为 40 万美元。对于资金紧张的研究实验室或个体研究人员来说,这不是一个小数目。(根据一篇提供了更多 OPT-175B 细节的论文,Meta 使用 992 块 A100 80GB GPU 训练了自己的模型,这款 GPU 明显比 V100 快。)


Meta AI 的日志进一步证实,训练大型语言模型是一项非常复杂的任务。OPT-175B 的时间线上到处都是服务器崩溃、硬件故障和其他需要高级技术人员才能解决的并发症。研究人员还不得不多次重启训练过程,调整超参数,修改损失函数。所有这些都会产生小型实验室无法承担的额外费用。

大型语言模型的未来


语言模型如 OPT 和 GPT 都是基于转换器架构的。转换器的关键特性之一是它们能够大规模地并行处理海量时序数据(如文本)。


近年来,研究人员已经证明,增加转换器模型的层数和参数,可以提高它们在语言任务上的性能。一些研究人员认为,达到更高的智能水平只是一个规模问题。因此,像 Meta AI、DeepMind(由 Alphabet 拥有)和 OpenAI(由微软支持)这样现金充足的研究实验室正在朝着创建越来越大的神经网络前进。


某人的观点文章。我的看法是:现在都是规模问题了!游戏结束了!现在只要让这些模型更大、更安全、计算效率更高、采样更快、记忆更智能、模式更多样、数据更有创新性,无论在线还是离线......1/N https://t.co/UJxSLZGc71

—— Nando de Freitas(@NandoDF)


去年,微软和英伟达创建了一个有 5300 亿个参数的语言模型,名为 Megatron-Turing (MT-NLG)。上个月,谷歌推出了路径语言模型(PaLM)。这是一个有 5400 亿个参数的 LLM。有传言称,OpenAI 将在未来几个月发布 GPT-4。


然而,神经网络越大需要的财政和技术资源也越多。虽然更大的语言模型会带来新的东西(和新的问题),但不可避免地,它们将把权力集中在少数富有的公司手中,使得较小的研究实验室和独立的研究人员更难研究大型语言模型了。


在商业方面,大型科技公司将拥有更大的优势。运行大型语言模型是非常昂贵和具有挑战性的。像谷歌和微软这样的公司有特殊的服务器和处理器,他们能够大规模运行这些模型并从中获利。对于比较小的公司来说,运行自己的 LLM(如 GPT-3)版本开销太大了。正如大多数企业使用云托管服务,而不是构建自己的服务器和数据中心一样,随着大型语言模型变得越来越流行,像 GPT-3 API 这样的开箱即用系统将越来越有吸引力。


这反过来又会使人工智能进一步集中在大型科技公司的手中。越来越多的人工智能研究实验室将不得不与大型科技公司建立合作伙伴关系,以获得资助。而这将使大型科技公司有更多的权力来决定人工智能研究的未来方向(这可能会与他们的经济利益相一致)。这可能要以那些短期内无法产生投资回报的研究领域为代价。


最后,当我们庆祝 Meta 为 LLM 带来透明度的时候,请不要忘记,大型语言模型本质上就是不民主的,而是有利于推广它们的公司。


英文原文:Can large language models be democratized?

2022-09-26 08:204506

评论

发布
暂无评论
发现更多内容

和鲸科技入选 2023 年度中国高科技高成长企业系列榜单丨第一新声 & 天眼查

ModelWhale

大数据 #人工智能 人工智能公司

解锁ETLCloud中Kettle的用法

RestCloud

kettle 数据同步 ETL 数据集成

【IoTDB 线上小课 01】我们聊聊“金三银四”下的开源

Apache IoTDB

2024 年“和鲸杯”辽宁省普通高等学校本科大学生计算机设计竞赛启动会圆满结束!

ModelWhale

人工智能 大数据 大学生竞赛

我们是如何测试人工智能的(二)数据挖掘篇

测吧(北京)科技有限公司

测试

今日分享丨单点登录原理及OAuth20授权码协议

inBuilder低代码平台

低代码 单点登录

日志系统:一条SQL更新语句是如何执行的?

TimeFriends

一文读懂模块化赛道新的头部公链Meta Earth

大瞿科技

DACI决策框架,给低效能企业一个机会

填空时光

项目管理 效能提升 效能工具 决策管理

IT外包服务助推企业产业融通

Ogcloud

IT IT外包 IT外包公司 IT外包服务 IT外包企业

天翼云超大规模高性能云基础底座、“息壤”获国资委权威认可!

编程猫

企业级依赖管理: 深入解读 Maven BOM

LightGao

maven 设计模式 架构设计 软件系统 java 架构

数仓调优实战:GUC参数调优

华为云开发者联盟

数据库 华为云 华为云开发者联盟 华为云GaussDB(DWS) 企业号2024年4月PK榜

建设智慧公厕有什么好处?都有哪些功能?

光明源智慧厕所

提升团队工程交付能力,从“看见”工程活动和研发模式开始

阿里巴巴云原生

阿里云 云原生 云效

5个为什么要做外贸网站推广的理由

九凌网络

一文读懂模块化赛道新的头部公链Meta Earth

加密眼界

TCL实业盘古实验室发布全域光晕控制等多项创新显示技术

Geek_2d6073

2024年智慧厕所解决方案,光明源智能科技是怎么实现的。

光明源智慧厕所

提升团队工程交付能力,从“看见”工程活动和研发模式开始

阿里云云效

阿里云 云原生 云效

Sam Altman 联手苹果前首席设计官打造 AI 设备;特斯拉将推出无人驾驶出租车丨 RTE 开发者日报 Vol.178

声网

我们是如何测试人工智能的(四)补充:模型全生命周期流程与测试图

测吧(北京)科技有限公司

测试

我们是如何测试人工智能的(六)推荐系统拆解

测试人

人工智能 软件测试 自动化测试 测试开发

为什么中小企业普遍选择IT运维外包了?

Ogcloud

IT运维 IT外包 IT外包公司 IT外包服务 IT运维外包

我们是如何测试人工智能的(七)包含大模型的企业级智能客服系统拆解与测试方法 – 知识引擎

测试人

人工智能 软件测试 自动化测试 测试开发

亚马逊店铺引流:海外云手机的利用方法

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 美国云手机

我们是如何测试人工智能的(七)智能客服系统拆解与测试方法

测试人

人工智能 软件测试

KaiwuDB 成功入选《2023 ToB 行业影响力价值榜 · 创新力产品榜》

KaiwuDB

数据库

浪潮信息发布全球首个单存储16节点SAP HANA集群方案

财见

广东智慧公厕管理系统哪家好

光明源智慧厕所

我们是如何测试人工智能的(三)数据构造与性能测试篇

测吧(北京)科技有限公司

测试

不要指望下一个像GPT这样的大型语言模型会民主化_AI&大模型_Ben Dickson_InfoQ精选文章