写点什么

苹果推出 Ferret-UI Lite:一款用于查看和控制 UI 的端侧 AI 模型

  • 2026-02-28
    北京
  • 本文字数:966 字

    阅读完需:约 3 分钟

苹果公司推出的 Ferret‑UI Lite 是一款针对移动与桌面屏幕优化的 30 亿参数模型,可解析屏幕图像、理解图标与文本等 UI 元素,并通过读取消息、查看健康数据等方式与应用交互。

该项目致力于构建可在移动设备、网页及桌面等平台上直接与图形用户界面交互的轻量化端侧 GUI 智能体。

研究人员在相关论文中指出:“相比之下,现有 GUI 智能体方法大多基于大型基础模型”,例如 GPT 和 Gemini,这让这类智能体在各类 GUI 导航任务中具备了“令人印象深刻的能力”。但这也带来了“建模复杂、计算成本高、推理耗时较长”等问题,同时还存在延迟更高、隐私性更差、依赖网络连接等缺点。这促使研究者着手开发性能相当的轻量化端到端侧智能体,而这一方向目前仍颇具挑战。

我们借助面向小模型的优化技术,通过整合来自真实场景与合成数据的多样化 GUI 数据集、结合思维链推理与视觉工具使用来增强推理性能,并采用基于奖励设计的强化学习方法,最终构建出参数规模为 30 亿的 Ferret-UI Lite 智能体。

研究人员表示,Ferret-UI Lite 通过屏幕图像裁剪与思维链提示词提升了对含小型 UI 元素的复杂界面布局的理解精度。该方法实现了“与大模型相比具有竞争力、甚至在部分场景下更优的性能”:在 GUI 定位任务(依据自然语言指令定位并识别特定 UI 元素)方面,ScreenSpot-V2 基准测试达到了 91.6%,ScreenSpot-Pro 达到了 53.3%,OSWorld-G 达到了 61.2%;在 GUI 导航任务方面,AndroidWorld 基准测试取得 28.0% 的成功率,OSWorld 则达到了 19.8%。

在训练方面,研究人员采用了两阶段流程:第一阶段基于多样化的真实与合成 GUI 交互数据进行监督微调(SFT);第二阶段使用带可验证奖励的强化学习(RLVR)优化任务成功率,而非单纯的模仿学习。此外,他们对动作格式进行了标准化,并在推理阶段采用“放大”与思维链推理等技术,提升模型的感知精度。

研究人员得出结论:GUI 定位与导航数据可相互补充,通过整合多样化来源的合成数据能显著提升模型在两类任务上的性能。此外,尽管思维链推理与视觉工具带来了一定提升,但增益有限;同时,小模型在长程、多步骤任务上仍表现不佳,且对奖励设计较为敏感。

研究人员建议,Ferret-UI Lite 可作为端侧智能体,帮助苹果降低对谷歌云的依赖,同时为 Siri 构筑“隐私保护盾”。

原文链接:

https://www.infoq.com/news/2026/02/apple-ferret-ui-lite-on-device/