在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

Cactus v1:具有零延迟和完全隐私的跨平台移动 LLM 推理

  • 2025-12-26
    北京
  • 本文字数:1297 字

    阅读完需:约 4 分钟

大小:679.26K时长:03:51
Cactus v1:具有零延迟和完全隐私的跨平台移动LLM推理

Cactus是一家由 Y Combinator 支持的初创公司,通过跨平台、高能效的内核和原生运行时,使本地 AI 推理能够应用于手机、可穿戴设备和其他低功耗设备。它为设备上的推断提供了低于 50ms 的首次令牌时间,消除了网络延迟,并默认提供了完全的隐私保护。

 

SDK 的v1版本,现在处于测试阶段,提高了低端硬件上的性能,并增加了可选的云回退功能,以确保更高的可靠性。

 

Cactus 允许开发者使用它的 SDK 在任何应用程序中本地部署模型,它为React NativeFlutterKotlin Multiplatform提供了本地绑定。原生Swift支持仍然很少,也不如对其他语言的支持成熟,但是 iOS 开发者可以在他们的 Swift 应用中使用 Kotlin Multiplatform 绑定。

 

在 iOS 和 Android 设备上,Cactus 采用了比苹果 Apple Foundation 框架和谷歌 AI Edge 提供的平台原生解决方案更通用的方法来进行设备上的 AI 推理,后者是特定于平台的,只暴露了有限的、由供应商控制的功能集。Cactus 支持多种模型,包括 Qwen、Gemma、Llama、DeepSeek、Phi、Mistral 等。为了提高效率和性能,它支持从 FP32 到 2 位的一系列量化级别。

 

Cactus 提供内置的模型版本控制和无线更新。你可以在不要求应用更新的情况下向用户推送新的模型版本。SDK 在后台无缝地处理下载、缓存和模型版本之间的切换。

 

Cactus SDK 还支持为复杂或大上下文任务退回到基于云的模型,从而确保了健壮性和高可用性。根据 Cactus 的说法,“这解决了 v0 用户最常见的请求之一,他们需要保证关键的面向用户的功能的响应时间”。

 

在版本 v1 中,Cactus 彻底修改了自己的推理引擎,从 GGUF 转换为专有格式,并包括优化的 ARM-CPU 内核,以便在所有支持的设备上获得更好的性能。这些 SDK 是从头开始重新构建的,以提高跨语言的 API 一致性,同时尽可能保持向后兼容性。新版本还引入了更新的遥测和监测系统。

 

这使开发人员能够深入了解他们的 AI 模型性能、使用模式和潜在的优化机会。这种数据驱动的方法使团队能够做出关于模型选择和部署策略的明智决策。

 

除了 LLM 推理,Cactus v1 还支持工具调用和语音转录。Flutter SDK 还提供 RAG 微调功能,而 React Native SDK 提供图像嵌入功能。根据 Cactus 的路线图,这些功能将很快扩展到其他 SDK 变体,以及语音合成。

 

为了更好地了解 Cactus在不同设备上的性能,该公司发布了使用 LFM2-VL-450m 和 Whisper-Small 模型的基准测试,测量了每秒令牌数、预填充/解码等指标。基准测试采用 INT8 量化,并利用 NPU 实现实时性能和大型上下文处理。结果表明,Mac M4 Pro 可以达到 173 tok/s, iPhone 17 Pro 可以达到 136 tok/s, Galaxy S25 Ultra 91 tok/s, Raspberry Pi 5 可以达到 24 tok/s。

 

作为参考,最小的模型 gemma-3-270m-it 的压缩占用为 172 MB,并且只支持补全。Qwen3-0.6B 占用 394 MB,支持补全、工具调用、嵌入、语音功能。在高端:Gemma-3-1b-it 占用 642 MB, Qwen3-1.7B 占用 1161 MB。

 

Cactus 还为iOSAndroid发布了聊天应用,可以使用不同的 LLM,允许开发人员通过 Cactus SDK 访问时对延迟和吞吐量进行基准测试。

 

Cactus 面向学生、教育工作者、非营利组织和小型企业是免费开放源代码的。它可以从GitHub上克隆。

 

原文链接:

https://www.infoq.com/news/2025/12/cactus-on-device-inference/

2025-12-26 15:281

评论

发布
暂无评论

软件测试开发/全日制/测试管理丨用户端 App 自动化测试

测试人

软件测试 自动化测试 测试开发 app自动化测试

亚马逊云科技助力施耐德电气加速AI技术在制造场景的落地与创新

财见

Postgres 中文周报:PostgreSQL 2023 热门回顾

酷克数据HashData

Apache Flink 和 Paimon 在自如数据集成场景中的使用

Apache Flink

大数据 flink 实时计算

软件测试开发/全日制/测试管理丨Docker容器技术

测试人

Docker 软件测试 容器技术 测试开发

软件测试开发/全日制/测试管理丨持续集成、持续交付、持续部署

测试人

软件测试 持续集成 自动化测试 持续交付 测试开发

什么是多边形网格以及如何编辑它?

3D建模设计

3D渲染 3D材质编辑 3D材质纹理贴图 UV纹理贴图 UV映射

使用AI搭建SpringBoot服务

X.F

AI Openjdk Java' openai Bard

软件测试开发/全日制/测试管理丨接口测试抓包与 Mock/接口自动化

测试人

软件测试 接口测试 测试开发 Mock

DAPP、链游、交易所和区块链钱包开发

区块链软件开发推广运营

交易所开发 区块链开发 链游开发 公链开发 区块链开发DAPP开发

医疗机构如何释放数据要素价值 推动数据资产化

用友BIP

数据资产

CAE技术的局限性讨论-CAE咨询

智造软件

CAE CAE软件

软件测试开发/全日制/测试管理丨性能测试

测试人

面向大模型,腾讯云大数据重磅发布ES及数据湖产品新版本

腾讯云大数据

数据湖 ES

程序员开年第一唠:rest开发步骤

不在线第一只蜗牛

Java 数据库 前端 Rest

聚道云软件连接器助力某软件科技有限公司实现人力资源信息自动化

聚道云软件连接器

案例分享

让数据要素合规高效流通!海南这么干!

天翼云开发者社区

云计算 大数据

列式云数据库与关系型云数据库:区别、优缺点与选择

天翼云开发者社区

数据库 云计算 关系型数据库

UV贴图和展开初学者指南

3D建模设计

3D渲染 3D材质编辑 3D材质纹理贴图 UV纹理贴图 UV映射

NeurIPS’23 Paper Digest | 如何把 LLM 的推理能力应用于事件序列预测?

可信AI进展

人工智能 机器学习 推理 推理模型 算法、

如何选择适合自己的外贸独立站域名?

九凌网络

如何选择适合自己的外贸独立站域名?

九凌网络

面向研发使用、全栈开发、前后端分离的低代码平台

互联网工科生

软件开发 前后端分离 低代码 全栈开发

云数据库与Web网站:构建高效、可扩展的网络应用

天翼云开发者社区

数据库 云计算 大数据

UV映射技巧和窍门

3D建模设计

3D渲染 3D材质编辑 3D材质纹理贴图 UV纹理贴图 UV映射

了解什么是UV纹理?

3D建模设计

3D渲染 3D材质编辑 3D材质纹理贴图 UV纹理贴图 UV映射

Cactus v1:具有零延迟和完全隐私的跨平台移动LLM推理_AI&大模型_Sergio De Simone_InfoQ精选文章