亮网络解锁器,解锁网络数据的无限可能 了解详情
写点什么

苹果发布 OpenELM:专为在设备端运行而设计的小型开源 AI 模型

  • 2024-04-26
    北京
  • 本文字数:3355 字

    阅读完需:约 11 分钟

大小:1.62M时长:09:27
苹果发布OpenELM:专为在设备端运行而设计的小型开源AI模型

今天,苹果破天荒整了个大新闻。

 

苹果开源了一个在设备端运行的 AI 模型 OpenELM,同时还公开了代码、权重、数据集、训练全过程。

 

就像谷歌、三星及微软着力在 PC 和移动设备端推动生成式 AI 模型的开发一样,苹果也加入了这一行列。这是一个新的开源大语言模型(LLM)家族,能够依托单一设备平台运行,完全无需借助云服务器。

 

OpenELM 已经于日前在 AI 代码社区 Huggang Face 上发布,由多个旨在高效执行文本生成任务的小模型组成。

 


苹果投身开源 AI 战局,在 Hugging Face 上发布四种新模型!

 

OpenELM 模型家族共有八位成员,其中四个为预训练模型,另外四个为指令微调模型,参数规模在 2.7 亿到 30 亿之间(即大模型中人工神经元之间的连接数量,参数越多通常意味着性能更好、功能更强,但并不绝对)。而微软 Phi-3 模型为 38 亿。

 

预训练是让大模型得以生成连续、可用文本的重要方法,而指令微调则能够让模型以相关度更高的输出响应用户的特定请求。具体来讲,预训练而成的模型往往会通过在提示词的基础上添加新文本来完成要求,例如面对用户的“教我如何烤面包”这条提示词,模型可能并不会给出分步说明,反而傻傻回答称“用家用烤箱烤”。而这个问题恰好可以通过指令微调来解决。

 

OpenELM 通过采用层级缩放策略、在公开数据集预训练后微调,实现了 Transformer 语言模型效果的改进。因此,OpenELM 的 transformer layers 不是具有相同的参数集,而是具有不同的配置和参数。这样的策略能让模型精度显著提高。例如,在大约十亿参数的预算下,OpenELM 的准确率较 OLMo 提升了 2.36%,且预训练所需的 Token 数量减少了一半。

 

苹果在其所谓“示例代码许可证”下发布了 OpenELM 模型的权重,以及训练中的不同检查点、模型性能统计数据以及预训练、评估、指令微调与参数效率调优的说明。网友点评说,“可以说对开发者来说很友好了,毕竟深度网络的很大一部分难点存在参数调节。”

 


苹果的示例代码许可证并不禁止商业使用或修改,仅要求“如果您以完整且未经修改的方式重新发布苹果软件,则必须在所有此类发布中保留本通知以及以下文本与免责声明。”

 

该许可不是公认的开源许可证,虽然苹果也没有做过度的限制,但它确实明确表明,如果任何基于 OpenELM 的衍生作品被认为侵犯了其权利,苹果保留提出专利索赔的权利。

 

苹果公司还进一步强调,这些模型“不提供任何安全保证。因此,模型可能会根据用词提示词生成不准确、有害、存在偏见或者令人反感的输出。”

 

OpenELM 只是苹果公司发布的一系列令人惊讶的开源 AI 模型中的最新一批。去年 10 月,苹果方面曾悄然发布具有多模态功能的开源语言模型 Ferret,迅速引起各界关注。

 

目前,大模型领域主要分为开源和闭源两大阵营。闭源阵营的代表企业包括 OpenAI、Anthropic、谷歌、Midjourney、Udio、百度、科大讯飞、出门问问、月之暗面等。开源阵营的代表企业包括 Meta、微软、谷歌、百川智能、阿里巴巴、零一万物等。这些企业致力于开放大模型的技术和代码,鼓励开发者和研究人员参与模型的开发和改进。

 

苹果长期以来一直以神秘莫测、对外“封闭”而闻名,本次却罕见地加入开源大模型阵营。以前,除了在网上发布模型和论文之外,苹果并未公开宣布或者讨论其在 AI 领域的探索。

 

关于 OpenELM,我们了解什么?

 

尽管 OpenELM(全称为开源高效语言模型)才刚刚发布、尚未进行过公开测试,但苹果在 Hugging Face 上指出其目标是在设备端运行这些模型。这明显是在紧跟竞争对手谷歌、三星和微软的脚步——微软本周刚刚发布了能够纯在智能手机端运行的 Phi-3 Mini 模型。

 

在 arXiv.org 上发表的一篇模型阐述论文中,苹果表示 OpenELM 的开发“由 Sachin Mehta 领导,Mohammad Rastegrai 与 Peter Zatloukal 则额外做出贡献”,该模型家族“旨在增强并赋能开放研究社区,促进未来的研究工作。”

 

苹果的 OpenELM 模型分为四种规模,分别拥有 2.7 亿、4.5 亿、11 亿与 30 亿参数,各模型均比现有高性能模型更小(通常为 70 亿参数)且各自拥有预训练与指令微调两个版本。

 

这些模型的预训练采用来自 Reddit、维基百科、arXiv.org 等网站总计 1.8 万亿 tokens 的公共数据集。

 


OpenELM 模型适合在商用笔记本电脑甚至部分智能手机上运行。苹果在论文中指出,他们分别在“配备英特尔 i9-13900KF CPU、64 GB DDR5-4000 DRAM 和 24 GB VRAM 的英伟达 RTX 4090 GPU,运行有 Ubuntu 22.04 的工作站上”、以及“配备 M2 Max 系统芯片与 64 GiB RAM、运行有 macOS 14.4.1 的苹果 MacBook Pro 上”运行了基准测试。

 



网友测试运行 OpenELM 模型

 

有趣的是,新家族中的所有模型均采用分层缩放策略来分配 Transformer 模型中每一层内的参数。

 

据苹果公司介绍,这种方式能够提供更加准确的结果,同时提高计算效率。该公司还使用新的 CoreNet 库对模型进行了预训练。

 

该公司在 Hugging Face 上提到,“我们的预训练数据集包含 RefinedWeb、去重版 PILE、RedPajama 的一个子集以及 Dolma v1.6 的一个子集,总规模约 1.8 万亿个 tokens。”

 

值得肯定,但性能并非顶尖

 

在性能方面,苹果公布的结果显示 OpenELM 模型相当出色,特别是其中的 4.5 亿参数版本。

 


此外,11 亿参数的 OpenELM 版本“比拥有 12 亿参数的 OLMo 模型性能提高了 2.36%,且需要的预训练 tokens 仅为后者的二分之一。”OLMo 是艾伦 AI 研究所(AI2)最近发布的“真正开源且最先进的大语言模型”。

 

而在强调测试知识与推理技能的 ARC-C 基准测试中,经过预训练的 OpenELM-3B 版本的准确率达到 42.24%,同时在 MMLU 与 HellaSwag 上分别得到 26.76%与 73.28%的成绩。

 

一位参与该模型系列测试的用户指出,苹果的模型成果似乎“稳定且性能一致”,就是说其响应结果并不具备灵活的创造力,也不太可能冒险涉及“不适合上班时浏览”的内容。

 

竞争对手微软近期推出的 Phi-3 Mini 拥有 38 亿参数及 4k 上下文长度,目前在性能层面仍处于领域地位。

 

根据最新发布的统计数据,Phi-3 Mini 在 10-shot ARC-C 基准测试中得分为 84.9%,在 5-shot MMLU 上得分为 68.8%,在 5-shot Hellaswag 上得分为 76.7%。

 

但从长远来看,OpenELM 肯定还会继续得到改进。目前开源大模型社区对于苹果的加入非常兴奋,也期待看到这位“闭源”巨头如何将其成果引入于各类应用场景。

 

大模型是智能手机的未来

 

手机厂商们都很看好手机上的 AI 前景。

 

高通和联发科等公司已推出了智能手机芯片组,可满足人工智能应用所需的处理能力。此前,许多设备上的 AI 应用实际上是在云端进行部分处理,然后下载到手机上。但云端模型也存在弊端,如推理成本很高,一些 AI 创业公司训练+生成一张图片的成本可能就要一元。而先进的芯片和端侧模型则会推动更多 AI 应用程序在手机端运行,节省成本的同时,也能给用户带来更好的实时计算能力,从而催生出新的商业模式。

 

从 ChatGPT 火爆至今不过一年左右,手机厂商就都已将 AI 大模型技术落地在自家手机中。

 

今年三星新发布的 Galaxy S24 系列上搭载了能处理语音、文本、图像的端侧 Galaxy AI。谷歌也发布了一款搭载自家 AI 模型的手机 Pixel 8 系列,该设备搭载了 Gemini Nano。谷歌 Pixel 部门产品管理副总裁 Brian Rakowski 还表示谷歌最先进的大模型也会于明年直接登陆智能手机,“我们在压缩这些模型方面已经取得了相当多的突破。” 

 

国内头部手机厂商也争相布局。小米于去年 10 月发布了澎湃 OS 以及小米自研大模型加持的各类应用;vivo 也去年宣布推出了蓝心大模型,并开源了面向手机打造的端云两用大模型 BlueLM-7B;OPPO 也在去年 11 月发布了安第斯大模型(AndesGPT),以“端云协同”为基础架构设计思路,推出了多种不同参数规模的模型规格。

 

今年世界移动通信大会 MWC 的一大亮点也是大模型能够在设备本身上本地运行,“这就是最具颠覆性的地方。” CCS Insight 首席分析师 Ben Wood 感叹。在这次大会上,还展示了一些未来 AI 概念手机,比如德国电信和 Brain.ai 完全放弃 App 而采用 AI 界面的 T phone。因此,也有预测认为,随着 AI 占领我们的智能手机,App 时代的终结可能指日可待,从而带来全新的生态和竞争格局。

 

手机大模型之战,此前只差苹果,而现在,苹果终于带着它的开源大模型来了。

 

参考链接:

https://venturebeat.com/ai/apple-releases-openelm-small-open-source-ai-models-designed-to-run-on-device/

https://www.infoq.cn/article/h2ceezfmjdbo2epareyh

https://arxiv.org/abs/2404.14619v1

https://twitter.com/atropos/status/1783349174702059742

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-04-26 15:196308

评论

发布
暂无评论

盘点 | 4类爆款小游戏开发引擎

FinFish

游戏引擎 小游戏 小游戏开发 微信小游戏 游戏开发引擎

Log4Shell 漏洞披露已近一年,它对我们还有影响吗?

SEAL安全

Log4Shell 12 月 PK 榜

参加前端培训之后能做什么?

小谷哥

收到7个offer,用同一个技术套路了多位面试官

钟奕礼

Java java程序员 java面试 java编程

2023来袭,分享500道我收集的Java架构面试题

钟奕礼

Java 程序员 java面试 java编程

SAP MM 采购订单的Document Flow

SAP虾客

面试官:你先回去等通知吧!这个Java岗位我还有机会吗?

钟奕礼

Java java面试 java编程 程序员、

15年磨一剑,亚马逊云科技数据产品掌门人 Swami 揭秘云原生数据战略的三大关键要素

亚马逊云科技 (Amazon Web Services)

亚马逊云科技

react源码分析:组件的创建和更新

flyzz177

React

域内用户Hash获取方式总结

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞挖掘

挤破脑袋要进阿里、腾讯的java程序员,去B站不香吗?

钟奕礼

Java 程序员 java面试 java编程

深入React源码揭开渲染更新流程的面纱

goClient1992

React

面试官:两个JVM的面试题就能证明,你连拿15K都不配

钟奕礼

Java 程序员 java面试 java编程

Wallys/DR9074E-Qualcomm Atheros QCN9074(QCN9024)/ 4x4 MU-MIMO Dual Band Wireless Module

Cindy-wallys

QCN9074 QCN9024

模块一作业

程序员小张

「架构实战营」

26个月89场Java岗面试,0至3年程序员的入职门槛到底是什么?

钟奕礼

Java 程序员 java面试 java编程

如何通过Java将Word转换为PDF

Geek_249eec

Java PDF word

Industrial wifi6 Wireless AP/DR AP6018 S AIPQ6010 2T2R 2.4G&5G high power Radio AP

Cindy-wallys

IPQ6010 high power 2.4G&5G

一步登顶还是步步维艰?Java资深架构师撰下的“阿里P7成神之路”

钟奕礼

Java 程序员 java面试 java编程

带你实现react源码的核心功能

goClient1992

React

大数据培训程序员就业前景如何

小谷哥

一个月面试了3家大厂Java岗,我发现这几个突破点

钟奕礼

Java 程序员 java面试 java编程

前端培训学习后程序员有什么好的方向吗

小谷哥

cookie sessionStorage localStorage区别(详解)

达摩

缓存 Web Cookie LocalStorage sessionStorage

【iOS逆向与安全】iOS插件开发光速入门

小陈

连阿里P8都赞不绝口的“分布式架构原理设计笔记”到底有多牛

小小怪下士

Java 程序员 分布式 架构设计

手写一个react,看透react运行机制

goClient1992

React

大数据培训学习的技术基础有哪些

小谷哥

java程序员培训零基础怎么学

小谷哥

react源码分析:深度理解React.Context

flyzz177

React

react源码分析:实现react时间分片

flyzz177

React

苹果发布OpenELM:专为在设备端运行而设计的小型开源AI模型_生成式 AI_Tina_InfoQ精选文章