Cactus v1：具有零延迟和完全隐私的跨平台移动LLM推理

Cactus是一家由 Y Combinator 支持的初创公司，通过跨平台、高能效的内核和原生运行时，使本地 AI 推理能够应用于手机、可穿戴设备和其他低功耗设备。它为设备上的推断提供了低于 50ms 的首次令牌时间，消除了网络延迟，并默认提供了完全的隐私保护。

SDK 的v1版本，现在处于测试阶段，提高了低端硬件上的性能，并增加了可选的云回退功能，以确保更高的可靠性。

Cactus 允许开发者使用它的 SDK 在任何应用程序中本地部署模型，它为React Native、Flutter和Kotlin Multiplatform提供了本地绑定。原生Swift支持仍然很少，也不如对其他语言的支持成熟，但是 iOS 开发者可以在他们的 Swift 应用中使用 Kotlin Multiplatform 绑定。

在 iOS 和 Android 设备上，Cactus 采用了比苹果 Apple Foundation 框架和谷歌 AI Edge 提供的平台原生解决方案更通用的方法来进行设备上的 AI 推理，后者是特定于平台的，只暴露了有限的、由供应商控制的功能集。Cactus 支持多种模型，包括 Qwen、Gemma、Llama、DeepSeek、Phi、Mistral 等。为了提高效率和性能，它支持从 FP32 到 2 位的一系列量化级别。

Cactus 提供内置的模型版本控制和无线更新。你可以在不要求应用更新的情况下向用户推送新的模型版本。SDK 在后台无缝地处理下载、缓存和模型版本之间的切换。

Cactus SDK 还支持为复杂或大上下文任务退回到基于云的模型，从而确保了健壮性和高可用性。根据 Cactus 的说法，“这解决了 v0 用户最常见的请求之一，他们需要保证关键的面向用户的功能的响应时间”。

在版本 v1 中，Cactus 彻底修改了自己的推理引擎，从 GGUF 转换为专有格式，并包括优化的 ARM-CPU 内核，以便在所有支持的设备上获得更好的性能。这些 SDK 是从头开始重新构建的，以提高跨语言的 API 一致性，同时尽可能保持向后兼容性。新版本还引入了更新的遥测和监测系统。

这使开发人员能够深入了解他们的 AI 模型性能、使用模式和潜在的优化机会。这种数据驱动的方法使团队能够做出关于模型选择和部署策略的明智决策。

除了 LLM 推理，Cactus v1 还支持工具调用和语音转录。Flutter SDK 还提供 RAG 微调功能，而 React Native SDK 提供图像嵌入功能。根据 Cactus 的路线图，这些功能将很快扩展到其他 SDK 变体，以及语音合成。

为了更好地了解 Cactus在不同设备上的性能，该公司发布了使用 LFM2-VL-450m 和 Whisper-Small 模型的基准测试，测量了每秒令牌数、预填充/解码等指标。基准测试采用 INT8 量化，并利用 NPU 实现实时性能和大型上下文处理。结果表明，Mac M4 Pro 可以达到 173 tok/s， iPhone 17 Pro 可以达到 136 tok/s， Galaxy S25 Ultra 91 tok/s， Raspberry Pi 5 可以达到 24 tok/s。

作为参考，最小的模型 gemma-3-270m-it 的压缩占用为 172 MB，并且只支持补全。Qwen3-0.6B 占用 394 MB，支持补全、工具调用、嵌入、语音功能。在高端：Gemma-3-1b-it 占用 642 MB， Qwen3-1.7B 占用 1161 MB。

Cactus 还为iOS和Android发布了聊天应用，可以使用不同的 LLM，允许开发人员通过 Cactus SDK 访问时对延迟和吞吐量进行基准测试。

Cactus 面向学生、教育工作者、非营利组织和小型企业是免费开放源代码的。它可以从GitHub上克隆。

原文链接：

https://www.infoq.com/news/2025/12/cactus-on-device-inference/

创作场景

Cactus v1：具有零延迟和完全隐私的跨平台移动 LLM 推理