大厂Data+Agent 秘籍:腾讯/阿里/字节解析如何提升数据分析智能。 了解详情
写点什么

苹果发布 OpenELM:专为在设备端运行而设计的小型开源 AI 模型

  • 2024-04-26
    北京
  • 本文字数:3355 字

    阅读完需:约 11 分钟

大小:1.62M时长:09:27
苹果发布OpenELM:专为在设备端运行而设计的小型开源AI模型

今天,苹果破天荒整了个大新闻。

 

苹果开源了一个在设备端运行的 AI 模型 OpenELM,同时还公开了代码、权重、数据集、训练全过程。

 

就像谷歌、三星及微软着力在 PC 和移动设备端推动生成式 AI 模型的开发一样,苹果也加入了这一行列。这是一个新的开源大语言模型(LLM)家族,能够依托单一设备平台运行,完全无需借助云服务器。

 

OpenELM 已经于日前在 AI 代码社区 Huggang Face 上发布,由多个旨在高效执行文本生成任务的小模型组成。

 


苹果投身开源 AI 战局,在 Hugging Face 上发布四种新模型!

 

OpenELM 模型家族共有八位成员,其中四个为预训练模型,另外四个为指令微调模型,参数规模在 2.7 亿到 30 亿之间(即大模型中人工神经元之间的连接数量,参数越多通常意味着性能更好、功能更强,但并不绝对)。而微软 Phi-3 模型为 38 亿。

 

预训练是让大模型得以生成连续、可用文本的重要方法,而指令微调则能够让模型以相关度更高的输出响应用户的特定请求。具体来讲,预训练而成的模型往往会通过在提示词的基础上添加新文本来完成要求,例如面对用户的“教我如何烤面包”这条提示词,模型可能并不会给出分步说明,反而傻傻回答称“用家用烤箱烤”。而这个问题恰好可以通过指令微调来解决。

 

OpenELM 通过采用层级缩放策略、在公开数据集预训练后微调,实现了 Transformer 语言模型效果的改进。因此,OpenELM 的 transformer layers 不是具有相同的参数集,而是具有不同的配置和参数。这样的策略能让模型精度显著提高。例如,在大约十亿参数的预算下,OpenELM 的准确率较 OLMo 提升了 2.36%,且预训练所需的 Token 数量减少了一半。

 

苹果在其所谓“示例代码许可证”下发布了 OpenELM 模型的权重,以及训练中的不同检查点、模型性能统计数据以及预训练、评估、指令微调与参数效率调优的说明。网友点评说,“可以说对开发者来说很友好了,毕竟深度网络的很大一部分难点存在参数调节。”

 


苹果的示例代码许可证并不禁止商业使用或修改,仅要求“如果您以完整且未经修改的方式重新发布苹果软件,则必须在所有此类发布中保留本通知以及以下文本与免责声明。”

 

该许可不是公认的开源许可证,虽然苹果也没有做过度的限制,但它确实明确表明,如果任何基于 OpenELM 的衍生作品被认为侵犯了其权利,苹果保留提出专利索赔的权利。

 

苹果公司还进一步强调,这些模型“不提供任何安全保证。因此,模型可能会根据用词提示词生成不准确、有害、存在偏见或者令人反感的输出。”

 

OpenELM 只是苹果公司发布的一系列令人惊讶的开源 AI 模型中的最新一批。去年 10 月,苹果方面曾悄然发布具有多模态功能的开源语言模型 Ferret,迅速引起各界关注。

 

目前,大模型领域主要分为开源和闭源两大阵营。闭源阵营的代表企业包括 OpenAI、Anthropic、谷歌、Midjourney、Udio、百度、科大讯飞、出门问问、月之暗面等。开源阵营的代表企业包括 Meta、微软、谷歌、百川智能、阿里巴巴、零一万物等。这些企业致力于开放大模型的技术和代码,鼓励开发者和研究人员参与模型的开发和改进。

 

苹果长期以来一直以神秘莫测、对外“封闭”而闻名,本次却罕见地加入开源大模型阵营。以前,除了在网上发布模型和论文之外,苹果并未公开宣布或者讨论其在 AI 领域的探索。

 

关于 OpenELM,我们了解什么?

 

尽管 OpenELM(全称为开源高效语言模型)才刚刚发布、尚未进行过公开测试,但苹果在 Hugging Face 上指出其目标是在设备端运行这些模型。这明显是在紧跟竞争对手谷歌、三星和微软的脚步——微软本周刚刚发布了能够纯在智能手机端运行的 Phi-3 Mini 模型。

 

在 arXiv.org 上发表的一篇模型阐述论文中,苹果表示 OpenELM 的开发“由 Sachin Mehta 领导,Mohammad Rastegrai 与 Peter Zatloukal 则额外做出贡献”,该模型家族“旨在增强并赋能开放研究社区,促进未来的研究工作。”

 

苹果的 OpenELM 模型分为四种规模,分别拥有 2.7 亿、4.5 亿、11 亿与 30 亿参数,各模型均比现有高性能模型更小(通常为 70 亿参数)且各自拥有预训练与指令微调两个版本。

 

这些模型的预训练采用来自 Reddit、维基百科、arXiv.org 等网站总计 1.8 万亿 tokens 的公共数据集。

 


OpenELM 模型适合在商用笔记本电脑甚至部分智能手机上运行。苹果在论文中指出,他们分别在“配备英特尔 i9-13900KF CPU、64 GB DDR5-4000 DRAM 和 24 GB VRAM 的英伟达 RTX 4090 GPU,运行有 Ubuntu 22.04 的工作站上”、以及“配备 M2 Max 系统芯片与 64 GiB RAM、运行有 macOS 14.4.1 的苹果 MacBook Pro 上”运行了基准测试。

 



网友测试运行 OpenELM 模型

 

有趣的是,新家族中的所有模型均采用分层缩放策略来分配 Transformer 模型中每一层内的参数。

 

据苹果公司介绍,这种方式能够提供更加准确的结果,同时提高计算效率。该公司还使用新的 CoreNet 库对模型进行了预训练。

 

该公司在 Hugging Face 上提到,“我们的预训练数据集包含 RefinedWeb、去重版 PILE、RedPajama 的一个子集以及 Dolma v1.6 的一个子集,总规模约 1.8 万亿个 tokens。”

 

值得肯定,但性能并非顶尖

 

在性能方面,苹果公布的结果显示 OpenELM 模型相当出色,特别是其中的 4.5 亿参数版本。

 


此外,11 亿参数的 OpenELM 版本“比拥有 12 亿参数的 OLMo 模型性能提高了 2.36%,且需要的预训练 tokens 仅为后者的二分之一。”OLMo 是艾伦 AI 研究所(AI2)最近发布的“真正开源且最先进的大语言模型”。

 

而在强调测试知识与推理技能的 ARC-C 基准测试中,经过预训练的 OpenELM-3B 版本的准确率达到 42.24%,同时在 MMLU 与 HellaSwag 上分别得到 26.76%与 73.28%的成绩。

 

一位参与该模型系列测试的用户指出,苹果的模型成果似乎“稳定且性能一致”,就是说其响应结果并不具备灵活的创造力,也不太可能冒险涉及“不适合上班时浏览”的内容。

 

竞争对手微软近期推出的 Phi-3 Mini 拥有 38 亿参数及 4k 上下文长度,目前在性能层面仍处于领域地位。

 

根据最新发布的统计数据,Phi-3 Mini 在 10-shot ARC-C 基准测试中得分为 84.9%,在 5-shot MMLU 上得分为 68.8%,在 5-shot Hellaswag 上得分为 76.7%。

 

但从长远来看,OpenELM 肯定还会继续得到改进。目前开源大模型社区对于苹果的加入非常兴奋,也期待看到这位“闭源”巨头如何将其成果引入于各类应用场景。

 

大模型是智能手机的未来

 

手机厂商们都很看好手机上的 AI 前景。

 

高通和联发科等公司已推出了智能手机芯片组,可满足人工智能应用所需的处理能力。此前,许多设备上的 AI 应用实际上是在云端进行部分处理,然后下载到手机上。但云端模型也存在弊端,如推理成本很高,一些 AI 创业公司训练+生成一张图片的成本可能就要一元。而先进的芯片和端侧模型则会推动更多 AI 应用程序在手机端运行,节省成本的同时,也能给用户带来更好的实时计算能力,从而催生出新的商业模式。

 

从 ChatGPT 火爆至今不过一年左右,手机厂商就都已将 AI 大模型技术落地在自家手机中。

 

今年三星新发布的 Galaxy S24 系列上搭载了能处理语音、文本、图像的端侧 Galaxy AI。谷歌也发布了一款搭载自家 AI 模型的手机 Pixel 8 系列,该设备搭载了 Gemini Nano。谷歌 Pixel 部门产品管理副总裁 Brian Rakowski 还表示谷歌最先进的大模型也会于明年直接登陆智能手机,“我们在压缩这些模型方面已经取得了相当多的突破。” 

 

国内头部手机厂商也争相布局。小米于去年 10 月发布了澎湃 OS 以及小米自研大模型加持的各类应用;vivo 也去年宣布推出了蓝心大模型,并开源了面向手机打造的端云两用大模型 BlueLM-7B;OPPO 也在去年 11 月发布了安第斯大模型(AndesGPT),以“端云协同”为基础架构设计思路,推出了多种不同参数规模的模型规格。

 

今年世界移动通信大会 MWC 的一大亮点也是大模型能够在设备本身上本地运行,“这就是最具颠覆性的地方。” CCS Insight 首席分析师 Ben Wood 感叹。在这次大会上,还展示了一些未来 AI 概念手机,比如德国电信和 Brain.ai 完全放弃 App 而采用 AI 界面的 T phone。因此,也有预测认为,随着 AI 占领我们的智能手机,App 时代的终结可能指日可待,从而带来全新的生态和竞争格局。

 

手机大模型之战,此前只差苹果,而现在,苹果终于带着它的开源大模型来了。

 

参考链接:

https://venturebeat.com/ai/apple-releases-openelm-small-open-source-ai-models-designed-to-run-on-device/

https://www.infoq.cn/article/h2ceezfmjdbo2epareyh

https://arxiv.org/abs/2404.14619v1

https://twitter.com/atropos/status/1783349174702059742

2024-04-26 15:197330

评论

发布
暂无评论
发现更多内容

系统召回太慢?上 Milvus × PaddleRec 双剑合璧大法!

Zilliz

数据库 推荐算法 召回 向量检索

想了解Xtrabackup备份原理和常见问题分析,看这篇就够了

华为云开发者联盟

MySQL 数据库 华为云 备份 XtraBackup

什么是激光雷达的“发动机技术”?一文讲透行业技术壁垒 (一)

SOA开发者

企业运维监控管理系统我给推荐行云管家!

行云管家

云计算 运维 运维监控 云管平台

华为技术官珍藏版:SpringBoot全优笔记,面面俱到,实在太全面了

Java 架构 面试 微服务 后端

架构实战营 毕业设计项目

蔸蔸

【优化技术专题】「线程间的高性能消息框架」再次细节领略Disruptor的底层原理和优势分析

码界西柚

Disruptor 异步高性能 高并发处理 性能提升 10月月更

云资源是什么意思?有什么特点?

行云管家

云计算 云服务 多云服务 云资源

Superior Scheduler:带你了解FusionInsight MRS的超级调度器

华为云开发者联盟

大数据 hadoop 开源 调度器 FusionInsight MRS

OBServer启动恢复解析

OceanBase 数据库

oceanbase OceanBase 开源 OceanBase 数据库大赛

“云智一体”系列白皮书智能视频篇来了!

百度大脑

人工智能

在GitHub标星86k+霸榜的某宝Redis核心原理深度实践PDF限时开源!

Java 架构 面试 程序人生 编程语言

高并发中的 限流、熔断、降级、预热、背压!

进击的王小二

高并发 java

不可思议!阿里大佬熬夜9天整理出749的HotSpot VM源码笔记

Java 架构 面试 程序人生 编程语言

上汽零束汽车智能应用创意大赛,初赛作品评选将启动!

SOA开发者平台

KubeVela 1.1 发布,开启混合环境应用交付新里程碑

阿里巴巴云原生

阿里云 云原生 KubeVela

细节理解!阿里内部Java高并发系统设计全彩手册曝光!霸榜GitHub

进击的王小二

Java 架构 高并发 Java性能调优

9. python 入门教程快速复习,序列,数值类型,字符串方法,列表、集合、字典方法,文件操作,解析式

梦想橡皮擦

10月月更

直播回顾 | 云和恩墨范计杰:Oracle DBA的SQL编写技能提升宝典(含SQL资源)

墨天轮

oracle sql 函数

第 13 章 -《Linux 一学就会》- Linux文件系统结构

学神来啦

Linux 运维 linux学习

聊一聊物联网嵌入式芯片的内容结构

华为云开发者联盟

物联网 内存 存储 嵌入式 芯片

字节跳动是如何落地微前端的

字节跳动终端技术

字节跳动 大前端 Web应用开发

2021年10月4日Facebook史上最严重宕机复盘分析

郑州埃文科技

ip数据 网络波动 网动仪

211本+985硕+计算机专业投面百度,坐等一周迎来三面,已拿offer

Java 程序员 架构 编程语言

语音翻译器 Tech Support

凌天一击

Vue进阶(幺贰捌):Vue插槽:slot、slot-scope与指令v-slot应用讲解

No Silver Bullet

Vue 插槽 10月月更

看一遍就理解:MVCC原理详解

Java MySQL 架构 面试 后端

物理服务器是什么意思?怎么构成?与云服务器有啥区别?

行云管家

云计算 服务器 云服务器 物理服务器

盘点后端领域的点点滴滴 | 引航计划|后端

xcbeyond

后端 引航计划 内容合集 技术专题合集

爱奇艺数据质量监控的探索和实践

爱奇艺技术产品团队

监控 数据治理 pingback

上汽零束汽车智能应用创意大赛,初赛作品评选将启动!

SOA开发者

苹果发布OpenELM:专为在设备端运行而设计的小型开源AI模型_生成式 AI_Tina_InfoQ精选文章