阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

Meta 发布全新大语言模型,号称比 ChatGPT 更强,单 GPU 上就能跑,后续或将开源

  • 2023-02-27
    北京
  • 本文字数:2235 字

    阅读完需:约 7 分钟

Meta发布全新大语言模型,号称比ChatGPT更强,单GPU上就能跑,后续或将开源

据报道,Meta 推出的 LLaMA-13B 的性能优于 ChatGPT 同类技术,但体积却只为后者的十分之一。

Meta 推出全新大语言模型,单 GPU 上可运行

 

OpenAI ChatGPT 带来一场 AI 技术革命之后,Google 推出了 BARD,其他几家科技巨头也不甘示弱,纷纷开始“秀肌肉”。目前,全力押注元宇宙的 Meta 公司正准备在其同行中占据优势。近日,这家总部位于加利福尼亚的科技巨头推出了一种新的研究工具,该工具将帮助开发者快速构建基于 AI 的聊天机器人。

 

当地时间 2 月 24 日,Meta公司宣布一款名为 LLaMA-13B 的新型 AI 大语言模型(LLM),宣称尽管规模仅为竞争对手 ChatGPT 的“十分之一”,但性能却优于 OpenAI 的 GPT-3 模型。

 

这种小体量 AI 模型的优势,在于有望通过 PC 和智能手机等设备本地运行类 ChatGPT 式的语言助手。顺带一提,LLaMA 的全称为“Large Language Model Meta AI”,即“Meta AI 大语言模型”。

 

根据 Meta 官方发布的消息,LLaMA 是一种先进的基础语言模型,旨在协助研究人员在 AI 相关领域迅速开展工作。有趣的是,LLaMA 是继 Glactica 和 Blender Bot 3 之后 Meta 的第三个 大规模语言模型,前两个大模型在实际应用效果不尽如人意后立即被关闭。

使用公开数据集训练,后续或将开源

 

LLaMA 语言模型家族的参数量从 70 亿到 650 亿不等。相比之下,作为 AI“巨星”ChatGPT 的底层模型,OpenAI GPT-3 则拥有 1750 亿个参数。

 

根据 Meta 的说法,LLaMA 本质上不是聊天机器人,而是一种研究工具,可能会解决有关 AI 语言模型的问题。

 

“像 LLaMA 这种体积更小、性能更高的模型,能够帮助社区中无法访问大量基础设施的其他人能够研究这些模型,进一步使这个重要、快速变化的领域的访问民主化,”Meta 在其官方博客中这样描述该模型。

 

Meta 训练其LLaMA模型所使用的是各类公开可用的数据集(例如 Common Crawl、维基百科以及 C4),意味着该公司可能会开源发布模型及其权重设置。在大语言模型行业当中,这代表着一波转折性的新发展,或将打破科技巨头在竞赛中永远把最好的 AI 技术“藏”起来的定式

 

项目组成员 Guillaume Lample 在推文中指出,“与 Chinchilla、PaLM 或者 GPT-3 不同,我们只使用公开可用的数据集,这就让我们的工作与开源兼容且可以重现。而大多数现有模型,仍依赖于非公开可用或未明确记录的数据内容。”

 

现在,我们发布了 LLaMA 的 4 个基础模型,参数从 70 亿到 650 亿不等。LLaMA-13B 在大多数基准测试中优于 OPT 和 GPT-3 175B。LLaMA-65B 则可与 Chinchilla 70B 和 PaLM 540B 正面抗衡。

 

Meta 将自己的 LLaMA 模型称为“基础模型”,意味着该公司打算以此为基础构建起更加完善的 AI 模型。这类似于 OpenAI 以GPT-3为基础构建 ChatGPT 的作法。Meta 方面希望 LLaMA 能在自然语言研究当中发挥作用,进而在“问答、自然语言理解或阅读理解、理解能力以及解决现有语言模型的局限性”等方面贡献力量。

 

虽然顶级 LLaMA 模型(LLaMA-65B,拥有 650 亿个参数)明显是在叫板竞争对手 DeepMin、谷歌及 OpenAI 的同类方案,但此次公布阵容中最有趣的反而可能是家族中的“小弟弟”LLaMA-13B,此外,Meta 也表示将提供 7B、13B、33B 和 65B 等参数尺寸的 LLaMA。

 

前文提到,在接受八大标准“常识推理”基准测试(包括 BooIQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC 和 OpenBookQA 等)时,其在单 GPU 上运行的性能优于 GPT-3。而且跟 GPT-3 系列模型必须依赖于数据中心的庞大设施不同,LLaMA-13B有望在不久的将来,让消费级硬件也能获得趋近 ChatGPT 的 AI 性能表现。

参数规模在 AI 领域意味着什么?

 

参数规模在 AI 领域非常重要,是负责在机器学习模型当中根据输入数据进行预测或分类的变量。语言模型中的参数规模往往直接决定其性能,较大的模型通常可以处理更复杂的任务、并产生更连贯的输出。然而,参数越多、模型占用的空间也越大,运行时消耗的算力也越夸张。因此,如果一个模型能够以更少的参数获得与另一模型相同的结果,则表示前者的效率有显著提高。

 

根据 Meta 的说法,训练 LLaMA 等较小的基础模型是理想的,因为它们需要极低的计算能力和资源来测试、验证和探索新的用例。众所周知,基础语言模型可以训练大量未标记的数据,这使得它们非常适合根据各种任务进行定制。

 

Meta 在其研究论文中指出,LLaMA-13B 在大多数基准测试中都优于 OpenAI 的 GPT-3 (175B),并且 LLaMA-65B 与最佳模型 DeepMind 的 Chinchilla70B 和谷歌的 PaLM-540B 具有竞争力。一旦经过更广泛的训练,LLaMA-13B 可能会成为希望在这些系统上运行测试的小型企业的福音,但是,它要让它脱离开发者独立工作,还有很长一段路要走。

 


 LLaMA 与其他大模型参数对比

 

独立 AI 研究员 Simon Willison 在文章中评论称,“我认为,我们有望在未来一、两年内通过自己的(旗舰级)手机和笔记本电脑,运行具备 ChatGPT 中大部分功能的语言模型。”

 

目前,精简版的 LLaMA 已经登陆 GitHub。要了解完整的代码的权重(即神经网络「学习」到的训练数据),Meta 已向感兴趣的研究人员开放访问申请表(https://forms.gle/jk851eBVbX1m5TAv5)。Meta 目前还未宣布更广泛的模型与权重公布计划。

 

LLaMA 项目地址:https://github.com/facebookresearch/llama

LLaMA 论文地址:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

 

参考链接:

https://arstechnica.com/information-technology/2023/02/chatgpt-on-your-pc-meta-unveils-new-ai-model-that-can-run-on-a-single-gpu/

https://indianexpress.com/article/technology/artificial-intelligence/meta-launches-llama-model-8465834/

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2023-02-27 14:086543
用户头像
李冬梅 加V:busulishang4668

发布了 807 篇内容, 共 376.6 次阅读, 收获喜欢 998 次。

关注

评论 1 条评论

发布
用户头像
2023-11-06 15:15 · 北京
回复
没有更多了
发现更多内容

Flutter加固原理及加密处理

百度搜索内容HTAP表格存储系统

百度Geek说

大数据 百度搜索 存储技术 企业号11月PK榜

为什么要对数据库优化呢?

小魏写代码

情感语音识别的应用与挑战

来自四九城儿

超450家公司报名12月22日厦门游戏创业者路演

西元米奇

KaiwuDB 亮相中国国际供应链促进博览会

KaiwuDB

KaiwuDB 中国国际供应链促进博览会

TG Pro for mac温度和风扇速度控制工具

加油,小妞!

TG Pro 下载 TG Pro

Lasso for Mac(macos窗口管理器)v1.6.3激活版

影影绰绰一往直前

Mac写作工具:WonderPen for Mac最新 「终端激活」

加油,小妞!

WonderPen妙笔 WonderPen

简便的看图软件:Pixea激活版

胖墩儿不胖y

Mac软件 看图软件 看图工具

Elmedia Player Pro for Mac(万能视频播放器)v8.17中文激活版

影影绰绰一往直前

TG Pro for mac(Mac硬件温度检测工具)v2.89激活版

影影绰绰一往直前

MarsEdit for Mac(博客写作软件)v5.1激活版

影影绰绰一往直前

iCompta for Mac(个人财物管理工具)v6.1.10激活版

影影绰绰一往直前

🚀Flutter应用程序的加固原理

雪奈椰子

Amazon CodeWhisperer 使用体验

亚马逊云科技 (Amazon Web Services)

Java Python 人工智能 云上探索实验室 Amazon CodeWhisperer

ps 2024 Mac破解版-Photoshop 2024 (ps) for Mac v25.1正式版,无限期激活使用

晴雯哥

Dropzone 4 for mac(文件拖拽增强工具)v4.80.0fix激活版

影影绰绰一往直前

JixiPix Artista Impresso Pro for Mac(油画滤镜软件)v1.8.24免激活版

影影绰绰一往直前

Mp3tag for Mac(音频标签编辑器)v1.8.11激活版

影影绰绰一往直前

强大的音频标签编辑器 Mp3tag 免激活中文最新

mac大玩家j

Mac软件 音频处理工具 音频标签编辑器

MySQL Shell如何接管手动搭建(含仲裁节点)MGR集群

GreatSQL

greatsql

Discuss the difference between MT7915 and QCA9880-QCA9882

wifi6-yiyi

MT7915

“2024上海智博会、2024北京智博会”双展联动,3月上海,6月北京

AIOTE智博会

智博会 上海智博会 世亚智博会 北京智博会

Sparkle for Mac(可视化网页开发工具)v5.2.3中文激活版

影影绰绰一往直前

Swinsian for Mac(mac音乐播放器)v3.0Preview10永久激活版

影影绰绰一往直前

高防服务器和高防ip都有哪些区别呢?

Geek_f19a80

服务器

Meta发布全新大语言模型,号称比ChatGPT更强,单GPU上就能跑,后续或将开源_语言 & 开发_李冬梅_InfoQ精选文章