写点什么

苹果公司开源机器学习框架 MLX,针对 Silicon 芯片进行了优化

作者:Sergio De Simone

  • 2024-01-10
    北京
  • 本文字数:1139 字

    阅读完需:约 4 分钟

大小:571.58K时长:03:15
苹果公司开源机器学习框架MLX,针对Silicon芯片进行了优化

苹果公司的机器学习框架MLX结合了开发者熟悉的 API、可组合的函数转换和惰性计算,部分灵感源于 NumPy 和 PyTorch,并针对苹果的 Silicon 进行了优化。该框架使用 Python 和 C++实现,旨在为在苹果 Silicon 上训练和部署机器学习模型提供用户友好且高效的解决方案。


根据苹果公司的说法,MLX 是由机器学习研究人员为机器学习研究人员设计的,并基于 MIT 发布许可,可以很容易地被扩展和改进。它支持转换语言模型训练、使用 Mistral 进行大规模文本生成、使用 Stable Diffusion 进行图像生成以及使用 Whisper 进行语音识别。


MLX 提供了受 NumPy 启发的底层 Python API 和一个完整的与之密切对应的 C++ API。此外,它还提供了一个高级 API,可用于根据 PyTorch API 创建更复杂的模型。


该框架支持自动微分、自动向量化和计算图优化,可组合的函数使得构建复杂数组转换变得更加容易。MLX 还支持惰性计算,这意味着它可以只在必要时才计算数组,以提高计算效率。同样,计算图是动态构建的,因此修改函数参数并不会触发缓慢的编译过程。


MLX 的一个独有的特性是使用了苹果 Silicon 的统一内存,这让它有别于其他的 ML 框架。这意味着数组位于共享内存中,可以在 CPU 或 GPU 上执行数组操作,无需在内存之间传输数据。例如,在创建一个数组时,你不需要指定位置,因为它位于统一内存中,而在执行操作时可以选择在 CPU 或 GPU 上执行转换:

a = mx.random.normal((100,))
b = mx.random.normal((100,))
mx.add(a, b, stream=mx.cpu)
mx.add(a, b, stream=mx.gpu)
复制代码


MLX 可在任意的苹果 Silicon CPU 上运行,包括 M1,并可以利用集成的 GPU,因此研究人员可以选择最适合其需求的硬件。


MLX 的代码库中包含了一些针对不同模型的示例,包括 BERT、Llama、Mistral、Stable Diffusion 等。每个示例都在requirements.txt文件中列出所需的依赖项,并提供了现成的 CLI 工具。例如,要使用 Stable Diffusion 生成图像,首先安装所有必需的依赖项,然后运行txt2image.py命令:

pip install -r requirements.txt

python txt2image.py "A photo of an astronaut riding a horse on Mars." --n_images 4 --n_rows 2


苹果尚未公开发布基准测试,因此我们目前不知道它与PyTorch/MPS或 Georgi Gerganov 的Llama.cpp相比表现如何。


不过,Stable Diffusion 示例中包含了使用 PyTorch 和 MLX 运行 UNet 的性能比较。MLX 在批次大小为 16 时的吞吐量比 PyTorch 高约 40%,最佳批次大小大 15%左右。


然而,PyTorch 在较小的批次大小时表现更好,批次大小为 1 时吞吐量高约 50%,批次大小为 4 时高约 10%。根据苹果公司的说法,PyTorch 在这些情况下的优势要归因于在模型还没有被加载到内存中且 PyTorch 的 MPS 图内核未被缓存时的编译速度。


如果你有兴趣体验 MLX,请参阅其快速入门指南完整文档


原文链接

https://www.infoq.com/news/2023/12/apple-silicon-machine-learning/

2024-01-10 08:008701

评论

发布
暂无评论
发现更多内容

TiDB 亮相宜昌“医院‘云数智’技术实践研讨及成果展示交流会”,探讨国产化 + AI 背景下的数据库新趋势

PingCAP

人工智能 数据库 云计算

SSL证书不可信的原因有哪些?(国科云)

国科云

推理性能提升13倍,延时缩短超4倍丨实测焱融YRCloudFile KVCache

焱融科技

AI推理 #分布式文件存储 KVCache

埋点系统客户案例-金融媒体为何选择ClkLog替换10万年费的SaaS平台?

ClkLog

开源 埋点 行为分析 画像

通义灵码与魔搭 Notebook 深度集成:在线编码开箱即用,开发效率倍增

阿里巴巴云原生

阿里云 云原生

智能制造:ERP的发展介绍与理解感悟

积木链小链

数字化转型 制造业 智能制造

1688商品详情API接口(1688.item_get)

tbapi

1688API 1688数据采集 1688商品详情API

模型即产品?从应用角度看AI产品发展趋势

秃头小帅oi

仅3步!即刻拥有 QwQ-32B,性能比肩全球最强开源模型

阿里巴巴云原生

阿里云 Serverless 云原生

深度解析:通过 AIBrix 多节点部署 DeepSeek-R1 671B 模型

极客天地

数智先锋 | 博睿数据赋能蒙牛集团构建大型企业的应用高级可观测能力

博睿数据

Go 语言常见错误——标准库

FunTester

从 DeepSeek 看25年前端的一个小趋势

极客天地

25年河南等级保护测评公司名单看这里!

行云管家

网络安全 等保 等保测评

AI时代的数据底座:火山引擎多模态数据湖的设计与实践

极客天地

堡垒机软件有哪些?举例一个说说!

行云管家

网络安全 堡垒机 云堡垒机

Superchain Interoperability:从碎片化跨链流动性到统一原生流动性层的未来

NFT Research

blockchain web3、

Apipost协议全栈支持+国密算法,调试效率飙出星际!

数据追梦人

腾讯云AI存储解决方案持续升级,为AI全业务场景提供全面支持

极客天地

抖音商品详情 API 接口(dy.item_get)全解析

tbapi

抖音API 抖音商品详情API

淘宝商品详情API+拍立淘实战:如何用技术重新定义"找货"?

代码忍者

淘宝API接口

量子计算与人工智能的结合:未来科技的双重革命

天津汇柏科技有限公司

人工智能 量子计算

TUSD运营商亏空近5亿美元,FDUSD发行方是罪魁祸首?

TechubNews

去中心化 孙宇晨 FDUSD

ClkLog埋点分析系统-Flutter埋点上报攻略

ClkLog

开源 埋点 用户行为分析 画像

API调用类型全面指南:理解基础知识

数据追梦人

通义灵码与魔搭 Notebook 深度集成:在线编码开箱即用,开发效率倍增

阿里云云效

阿里云 云原生 通义灵码

10倍降本、10倍无损弹性!Kafka Serverless 基础版与专业版重磅发布!

阿里巴巴云原生

kafka 阿里云 云原生

首批!天翼云息壤智算一体机顺利通过信通院三项测试!

天翼云开发者社区

人工智能 云计算 智算一体机

Kafka 4.0 重磅升级:架构革新与性能飞跃,全面拥抱 KRaft 时代!

测试人

人工智能

蚂蚁清华联合发布 AReaL-boba,代码数据全开源,助力社区轻松复现 SOTA 推理模型

蚂蚁开源

开源 强化学习 蚂蚁

BeeWorks内网im即时通讯,安全的企业内部沟通工具

BeeWorks

IM 即时通讯IM 私有化部署 局域网视频软件

苹果公司开源机器学习框架MLX,针对Silicon芯片进行了优化_芯片&算力_InfoQ精选文章