首个为手机而生的通用Agent？！苹果做不到的事，“野路子”智谱抢先实现了

自主行动将成为苹果预计在 2026 年推出的 Siri 重大升级的一部分。在 WWDC 2024 的主题演讲中，苹果展示了其对 Siri 发展方向的设想：不仅回答问题，更能跨应用执行任务，实现真正的智能助理体验。

然而，迄今为止，苹果尚未发布完整落地的执行型 Agent。Siri 的语音交互能力虽持续进化，但真正能代用户操作应用、完成复杂任务的智能体仍缺席。

有传言称，苹果至少还需要几年时间才能推出我们一直期待的真正的 iPhone AI 代理。毕竟用户设想中“一句话指令即可订餐、购票、查房源”的场景，对技术、安全性和生态提出极高要求。

但就在 8 月 20 日，国产大模型厂商智谱发布了 AutoGLM 2.0。

智谱官方宣称，这是全球首个可在手机上使用的 Agent，同时开创了“Agent + 云手机/云电脑”的新技术范式，无需占用用户本地设备，突破硬件限制，可在任何设备、任何场景下运行，帮助用户代理操作。

智谱将这一创新的核心概括为：“一个 APP 让一部手机成为真正的‘新物种’。”

AutoGLM 2.0 实现了质的飞跃——它不再只是“说”，而是真正能够“做”。在生活场景中，用户只需一句话，就能让 AutoGLM 操作美团、京东、小红书、抖音等几十个高频应用：点外卖、订机票、查房源，例如帮你买「秋天的第一杯奶茶」。这意味着，AI 不再是一个“聊天工具”，而是一个能真正替你干活的全能代理人。

背后的支撑技术

AutoGLM 项目于 2023 年底立项，并于 2024 年 10 月推出第一版。最初面临的主要问题是直接操作用户手机或电脑会抢占屏幕，影响用户体验；同时，安卓设备表面上看起来统一，但底层差异巨大，存在本地系统适配与权限问题，以及泛化困难等挑战。

今年 3 月，AutoGLM 沉思实现了 Deep Research（深度研究）与 Browser-Use Agent（浏览器使用代理）的融合，但同样面临本地系统复杂性、浏览器局限性以及关机后无法运行等问题。因此，智谱调整了策略，采用“云端手机 + 云端电脑”的形式。

目前，AutoGLM 2.0 已在国内免费向所有用户开放。智谱认为，Agent 有望成为全新的互联网流量入口。相比传统 Chatbot，Agent 的任务复杂度和消耗量更高——单个任务平均需要超过 256K 的 Token，而 Chatbot 一次对话通常只有 8K，二者相差达 32 倍。

不过，智谱强调，由于 AutoGLM 完全基于国产模型，相较接入海外模型的方案，整体成本降低了一个数量级。

以 Deep Research 任务为例，使用 Claude API 平均成本约为 3–5 美元，而在 AutoGLM 上运行同样任务，模型和虚拟机一起计算，单次成本仅约 0.2 美元，相当于人民币 1 元多一点。

另外，GUI Agent 也是大模型企业近来都关注的方向，包括 Anthropic 和 OpenAI。去年 10 月，Anthropic 发布了他们称之为计算机使用的新 API 模式 Computer Use。OpenAI 也于今年 1 月发布了 Operator Computer，此外市场上还有 Browser Use 等相关产品。

智谱表示，在 Device Use 基准测试（涵盖手机、电脑和网页操作）中，AutoGLM 表现优于 ChatGPT Agent、UI-TARS-1.5 和 Claude Sonnet 4，展现出更强的鲁棒性与通用性，处于主流 Agent 的 SOTA 水平。

在技术层面，AutoGLM 2.0 由智谱语言模型 GLM-4.5 和视觉推理模型 GLM-4.5V 提供支持，并且还结合在“端到端异步强化学习”上的一些新方法，能够完成推理、编程、研究、智能体任务以及图形界面操作等多种工作，并且可以根据需要灵活调用最合适的“子大脑”来执行任务：MobileRL、ComputerRL，以及 AgentRL。

MobileRL 是一个面向移动端 GUI 任务的统一强化学习框架，旨在提升视觉语言智能体的推理能力与训练效率。

大模型驱动的 GUI Agent，整个操作过程由模型自主决策完成，而不是依赖预先编写好的固定流程。它会根据环境动态调整行为，并且能够理解人类给出的自然语言指令，因此并非只能执行某个特定任务的脚本，而是以更通用的方式实现操作。

这也使得它需要在一定程度上适应环境的变化。只要环境变化仍在模型对 UI 的理解范围内，它仍有很高的概率能够正确执行任务。——但这并不代表准确率是 100%。

结合 MobileRL 训练出的 AUTOGLM-Mobile-9B，其在 AndroidWorld 上的成功率为 75.8%，在 AndroidLab 上成功率则为 46.8%。

ComputerRL 是一个面向桌面端任务的统一强化学习框架，旨在提升智能体在复杂数字化工作空间中的操作能力与自主决策效率。

智谱刚刚发布了其论文，ComputerRL 的核心是 API-GUI 范式。它把程序的 API 接口调用和直接的 GUI 操作结合起来，解决了机器智能体和以人为中心的桌面环境之间固有的不匹配问题，使 AI 既能像人一样操作界面，又能利用 API 控制软件。

在 OSWorld 基准测试上，结合了 ComputerRL 训练出的 AUTOGLM-OS-9B，实现了 48.1%的最佳准确率。

智谱的“新物种”：当手机通用 Agent 遇上苹果的谨慎

随着 AI Agent 战争的爆发，智能手机行业正在迎来新的格局变革。而对于智谱这样的国内大模型厂商来说，手机 OEM 厂商可能是一个重要切入点。未来，一部智能手机上预计会同时存在多个 AI Agent，作为应用和服务的入口。手机 OEM 将推广自有 Agent，但第三方开发者也可能推出替代方案，从而形成多 Agent 共存的生态系统。

Meta、腾讯和字节跳动等大型科技公司正准备利用人工智能代理来强化其生态系统。Meta 的代理可能只会通过 WhatsApp 与联系人发送消息，在微信生态系统内，腾讯也有机会创建一个非常独特的 Agent 生态。这些闭环生态会将用户锁定在自家系统，实现对涵盖日常生活各方面的“超级应用”的掌控。

这种变化可能彻底颠覆移动生态。如今，OEM 对应用分发仍有巨大影响力，尤其是在缺乏谷歌移动服务 (GMS) 的中国。但在大模型驱动的时代，如果 OEM 未能占据主动，它们可能会沦为单纯的硬件组装商，对软件、服务乃至收入来源几乎没有控制权。为了抓住这一机遇，OEM 厂商必须立即投资构建开放的 AI 生态系统。而支持独立的 AI 初创公司，并确保第三方代理无缝集成到其设备中，也是对抗巨头的一个方式。也许这就是智谱所瞄准的机会：通过为 OEM 提供手机 AI Agent 解决方案，帮助厂商在 AI 时代重新掌握用户入口，建立开放生态。

不过，目前手机 AI Agent 仍存在任务成功率偏低的明显瓶颈，最重要的还是隐私问题。移动设备是高度私密的个人设备，它们存储着我们的银行应用、健康记录、照片以及其他敏感信息。目前，大部分 AI 研究都只关注如何让 AI“更聪明地”完成任务，却很少有人真正去思考，这些操作背后的隐私和安全隐患。

苹果与华盛顿大学最近就发了一篇论文，研究和训练大模型理解其在手机上操作的后果，他们（如下图）强调：AI 不仅要学会操作设备，更需要理解每一步行为的后果，知道何时该暂停。

截图来源：https://arxiv.org/html/2410.09006v2

长期关注苹果与安全问题的 Andrew Orr 对此评论道：“人类行为复杂且依赖具体情境。假设机器能够毫无差错地处理这种复杂问题，往好说是痴心妄想，往坏说是疏忽大意。必须理解点击背后的人类含义，这对人工智能来说是一项艰巨的任务。”

因此，与其盲目激进推进手机 Agent，不如先以确保行为可控和隐私安全为前提，让手机 Agent 真正具备进入 C 端并被广泛接受的基础。

参考链接：

https://mp.weixin.qq.com/s/j6BGkYXc8sMsh-iOMYTiaw

https://x.com/AI_Whisper_X/status/1958029765388169279

https://arxiv.org/html/2410.09006v2

创作场景

首个为手机而生的通用 Agent？！苹果做不到的事，“野路子”智谱抢先实现了

背后的支撑技术

智谱的“新物种”：当手机通用 Agent 遇上苹果的谨慎