写点什么

首个为手机而生的通用 Agent?!苹果做不到的事,“野路子”智谱抢先实现了

  • 2025-08-25
    北京
  • 本文字数:2915 字

    阅读完需:约 10 分钟

大小:1.39M时长:08:05
首个为手机而生的通用Agent?!苹果做不到的事,“野路子”智谱抢先实现了

自主行动将成为苹果预计在 2026 年推出的 Siri 重大升级的一部分。在 WWDC 2024 的主题演讲中,苹果展示了其对 Siri 发展方向的设想:不仅回答问题,更能跨应用执行任务,实现真正的智能助理体验。

 

然而,迄今为止,苹果尚未发布完整落地的执行型 Agent。Siri 的语音交互能力虽持续进化,但真正能代用户操作应用、完成复杂任务的智能体仍缺席。

 

有传言称,苹果至少还需要几年时间才能推出我们一直期待的真正的 iPhone AI 代理。毕竟用户设想中“一句话指令即可订餐、购票、查房源”的场景,对技术、安全性和生态提出极高要求。

 

但就在 8 月 20 日,国产大模型厂商智谱发布了 AutoGLM 2.0。

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    智谱官方宣称,这是全球首个可在手机上使用的 Agent,同时开创了“Agent + 云手机/云电脑”的新技术范式,无需占用用户本地设备,突破硬件限制,可在任何设备、任何场景下运行,帮助用户代理操作。

     

    智谱将这一创新的核心概括为:“一个 APP 让一部手机成为真正的‘新物种’。”

     

    AutoGLM 2.0 实现了质的飞跃——它不再只是“说”,而是真正能够“做”。在生活场景中,用户只需一句话,就能让 AutoGLM 操作美团、京东、小红书、抖音等几十个高频应用:点外卖、订机票、查房源,例如帮你买「秋天的第一杯奶茶」。这意味着,AI 不再是一个“聊天工具”,而是一个能真正替你干活的全能代理人。

     

    背后的支撑技术

     

    AutoGLM 项目于 2023 年底立项,并于 2024 年 10 月推出第一版。最初面临的主要问题是直接操作用户手机或电脑会抢占屏幕,影响用户体验;同时,安卓设备表面上看起来统一,但底层差异巨大,存在本地系统适配与权限问题,以及泛化困难等挑战。

     

    今年 3 月,AutoGLM 沉思实现了 Deep Research(深度研究)与 Browser-Use Agent(浏览器使用代理)的融合,但同样面临本地系统复杂性、浏览器局限性以及关机后无法运行等问题。因此,智谱调整了策略,采用“云端手机 + 云端电脑”的形式。

     

    目前,AutoGLM 2.0 已在国内免费向所有用户开放。智谱认为,Agent 有望成为全新的互联网流量入口。相比传统 Chatbot,Agent 的任务复杂度和消耗量更高——单个任务平均需要超过 256K 的 Token,而 Chatbot 一次对话通常只有 8K,二者相差达 32 倍。

     

    不过,智谱强调,由于 AutoGLM 完全基于国产模型,相较接入海外模型的方案,整体成本降低了一个数量级。

     

    以 Deep Research 任务为例,使用 Claude API 平均成本约为 3–5 美元,而在 AutoGLM 上运行同样任务,模型和虚拟机一起计算,单次成本仅约 0.2 美元,相当于人民币 1 元多一点。

     

    另外,GUI Agent 也是大模型企业近来都关注的方向,包括 Anthropic 和 OpenAI。去年 10 月,Anthropic 发布了他们称之为计算机使用的新 API 模式 Computer Use。OpenAI 也于今年 1 月发布了 Operator Computer,此外市场上还有 Browser Use 等相关产品。

     

    智谱表示,在 Device Use 基准测试(涵盖手机、电脑和网页操作)中,AutoGLM 表现优于 ChatGPT Agent、UI-TARS-1.5 和 Claude Sonnet 4,展现出更强的鲁棒性与通用性,处于主流 Agent 的 SOTA 水平。

     


    在技术层面,AutoGLM 2.0 由智谱语言模型 GLM-4.5 和视觉推理模型 GLM-4.5V 提供支持,并且还结合在“端到端异步强化学习”上的一些新方法,能够完成推理、编程、研究、智能体任务以及图形界面操作等多种工作,并且可以根据需要灵活调用最合适的“子大脑”来执行任务:MobileRL、ComputerRL,以及 AgentRL。

     

    MobileRL 是一个面向移动端 GUI 任务的统一强化学习框架,旨在提升视觉语言智能体的推理能力与训练效率。

     

    大模型驱动的 GUI Agent,整个操作过程由模型自主决策完成,而不是依赖预先编写好的固定流程。它会根据环境动态调整行为,并且能够理解人类给出的自然语言指令,因此并非只能执行某个特定任务的脚本,而是以更通用的方式实现操作。

     

    这也使得它需要在一定程度上适应环境的变化。只要环境变化仍在模型对 UI 的理解范围内,它仍有很高的概率能够正确执行任务。——但这并不代表准确率是 100%。

     

    结合 MobileRL 训练出的 AUTOGLM-Mobile-9B,其在 AndroidWorld 上的成功率为 75.8%,在 AndroidLab 上成功率则为 46.8%。

     

    ComputerRL 是一个面向桌面端任务的统一强化学习框架,旨在提升智能体在复杂数字化工作空间中的操作能力与自主决策效率。

     


    智谱刚刚发布了其论文,ComputerRL 的核心是 API-GUI 范式。它把程序的 API 接口调用和直接的 GUI 操作结合起来,解决了机器智能体和以人为中心的桌面环境之间固有的不匹配问题,使 AI 既能像人一样操作界面,又能利用 API 控制软件。

     

    在 OSWorld 基准测试上,结合了 ComputerRL 训练出的 AUTOGLM-OS-9B,实现了 48.1%的最佳准确率。

     

    智谱的“新物种”:当手机通用 Agent 遇上苹果的谨慎

     

    随着 AI Agent 战争的爆发,智能手机行业正在迎来新的格局变革。而对于智谱这样的国内大模型厂商来说,手机 OEM 厂商可能是一个重要切入点。未来,一部智能手机上预计会同时存在多个 AI Agent,作为应用和服务的入口。手机 OEM 将推广自有 Agent,但第三方开发者也可能推出替代方案,从而形成多 Agent 共存的生态系统。

     


    Meta、腾讯和字节跳动等大型科技公司正准备利用人工智能代理来强化其生态系统。Meta 的代理可能只会通过 WhatsApp 与联系人发送消息,在微信生态系统内,腾讯也有机会创建一个非常独特的 Agent 生态。这些闭环生态会将用户锁定在自家系统,实现对涵盖日常生活各方面的“超级应用”的掌控。

     

    这种变化可能彻底颠覆移动生态。如今,OEM 对应用分发仍有巨大影响力,尤其是在缺乏谷歌移动服务 (GMS) 的中国。但在大模型驱动的时代,如果 OEM 未能占据主动,它们可能会沦为单纯的硬件组装商,对软件、服务乃至收入来源几乎没有控制权。为了抓住这一机遇,OEM 厂商必须立即投资构建开放的 AI 生态系统。而支持独立的 AI 初创公司,并确保第三方代理无缝集成到其设备中,也是对抗巨头的一个方式。也许这就是智谱所瞄准的机会:通过为 OEM 提供手机 AI Agent 解决方案,帮助厂商在 AI 时代重新掌握用户入口,建立开放生态。

     

    不过,目前手机 AI Agent 仍存在任务成功率偏低的明显瓶颈,最重要的还是隐私问题。移动设备是高度私密的个人设备,它们存储着我们的银行应用、健康记录、照片以及其他敏感信息。目前,大部分 AI 研究都只关注如何让 AI“更聪明地”完成任务,却很少有人真正去思考,这些操作背后的隐私和安全隐患。

     

    苹果与华盛顿大学最近就发了一篇论文,研究和训练大模型理解其在手机上操作的后果,他们(如下图)强调:AI 不仅要学会操作设备,更需要理解每一步行为的后果,知道何时该暂停。

     


    截图来源:https://arxiv.org/html/2410.09006v2

     

    长期关注苹果与安全问题的 Andrew Orr 对此评论道:“人类行为复杂且依赖具体情境。假设机器能够毫无差错地处理这种复杂问题,往好说是痴心妄想,往坏说是疏忽大意。必须理解点击背后的人类含义,这对人工智能来说是一项艰巨的任务。”

     

    因此,与其盲目激进推进手机 Agent,不如先以确保行为可控和隐私安全为前提,让手机 Agent 真正具备进入 C 端并被广泛接受的基础。

     

    参考链接:

    https://mp.weixin.qq.com/s/j6BGkYXc8sMsh-iOMYTiaw

    https://x.com/AI_Whisper_X/status/1958029765388169279

    https://arxiv.org/html/2410.09006v2

    2025-08-25 10:294914

    评论

    发布
    暂无评论

    手把手带你开发一款提效工具--VScode插件

    得物技术

    效率工具 前端 vscode 前端开发 插件

    IOS技术分享| 你画我猜小游戏快速实现

    anyRTC开发者

    音视频 移动开发 互动白板 你画我猜 社交娱乐

    不要害怕XXE漏洞:了解它们的凶猛之处以及检测方法

    龙智—DevSecOps解决方案

    代码安全 静态代码分析 漏洞检测 XXE 漏洞

    FinClip邀你来出战|Hackthon Coding Party 一触即发

    FinClip

    凡泰极客加入中商联互联网应用工作委员会并荣任常务委员单位

    FinClip

    Linux之lsof命令

    入门小站

    netty系列之:EventLoop,EventLoopGroup和netty的默认实现

    程序那些事

    Java Netty 程序那些事

    研究了2.1亿个皇堡后,英特尔BigDL发现了真相

    科技新消息

    【营】在开局,提升【豹】发力 - vivo活动插件管理平台

    vivo互联网技术

    前端 插件系统 构架

    大数据培训:Flink面试连环17问

    @零度

    flink 大数据开发

    全球案例 | 凯捷如何通过 Jira Software 和 Confluence 将全球产品团队联系起来

    龙智—DevSecOps解决方案

    Jira Atlassian Atlassian 凯捷 共享平台

    在线键盘按键检测工具

    入门小站

    工具

    如何在TypeScript/JavaScript项目里引入MD5校验和

    华为云开发者联盟

    JavaScript typescript npm md5 MD5校验

    2021年中国在线婚恋交友行业分析

    易观分析

    婚恋行业

    会声会影2022全新GIF功能详解

    懒得勤快

    混合多云环境下的云成本管理与优化

    鲸品堂

    成本优化 实践案例 云资源

    大厂晋升指南:材料准备,PPT写作和现场答辩

    邴越

    大厂技能 2月月更 晋升 职级

    看懂这5幅图,研发效能分析和改进就容易了

    阿里云云效

    阿里云 运维 数据分析 云原生 研发

    某神奇App data加密算法解析(一)

    奋飞安全

    android js 移动安全

    揭秘2022冬奥黑科技,阿里云视频云「Cloud ME」如何实现全息会面?

    阿里云CloudImagine

    阿里云 音视频 全息显示 视频云 冬奥会

    【云管平台】三大知名云管平台简单介绍

    行云管家

    云计算 云管平台 云资源 云 云时代 2B

    什么是规划物料清单(Planning BoM)?

    龙智—DevSecOps解决方案

    BOM Planning BoM 规划物料清单 半导体行业

    前端SSR的落地实践

    百度Geek说

    百度 前端 SSR

    前端培训:Vue3添加公共方法与使用

    @零度

    前端开发 Vue3

    开源免费的舆情系统的架构

    思通数科

    爬虫 数据采集 舆情 舆情分析

    【游戏研发必看】3 步配置 P4IGNORE + 精彩问答解析(用户文章转载)

    龙智—DevSecOps解决方案

    perforce P4IGNORE 游戏研发

    如何用AI技术增强企业认知智能?超详细架构解读

    博文视点Broadview

    知名服务器运维软件厂商堡塔加入龙蜥社区,并完成与 Anolis OS 兼容适配

    OpenAnolis小助手

    Linux 开源 服务器 安全技术

    拥抱国产化,推动产业互联网,拍乐云发布RTC私有云解决方案

    拍乐云Pano

    音视频 产业互联网 私有云 国产化

    HarmonyOS Lottie组件,让动画绘制更简单

    HarmonyOS开发者

    UI HarmonyOS ArKUI 3.0

    java培训:JVM 的面试题

    @零度

    JVM JAVA开发

    首个为手机而生的通用Agent?!苹果做不到的事,“野路子”智谱抢先实现了_生成式 AI_Tina_InfoQ精选文章