50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

首个为手机而生的通用 Agent?!苹果做不到的事,“野路子”智谱抢先实现了

  • 2025-08-25
    北京
  • 本文字数:2915 字

    阅读完需:约 10 分钟

大小:1.39M时长:08:05
首个为手机而生的通用Agent?!苹果做不到的事,“野路子”智谱抢先实现了

自主行动将成为苹果预计在 2026 年推出的 Siri 重大升级的一部分。在 WWDC 2024 的主题演讲中,苹果展示了其对 Siri 发展方向的设想:不仅回答问题,更能跨应用执行任务,实现真正的智能助理体验。

 

然而,迄今为止,苹果尚未发布完整落地的执行型 Agent。Siri 的语音交互能力虽持续进化,但真正能代用户操作应用、完成复杂任务的智能体仍缺席。

 

有传言称,苹果至少还需要几年时间才能推出我们一直期待的真正的 iPhone AI 代理。毕竟用户设想中“一句话指令即可订餐、购票、查房源”的场景,对技术、安全性和生态提出极高要求。

 

但就在 8 月 20 日,国产大模型厂商智谱发布了 AutoGLM 2.0。

 

00:00 / 00:00
    1.0x
    • 3.0x
    • 2.5x
    • 2.0x
    • 1.5x
    • 1.25x
    • 1.0x
    • 0.75x
    • 0.5x
    网页全屏
    全屏
    00:00


    智谱官方宣称,这是全球首个可在手机上使用的 Agent,同时开创了“Agent + 云手机/云电脑”的新技术范式,无需占用用户本地设备,突破硬件限制,可在任何设备、任何场景下运行,帮助用户代理操作。

     

    智谱将这一创新的核心概括为:“一个 APP 让一部手机成为真正的‘新物种’。”

     

    AutoGLM 2.0 实现了质的飞跃——它不再只是“说”,而是真正能够“做”。在生活场景中,用户只需一句话,就能让 AutoGLM 操作美团、京东、小红书、抖音等几十个高频应用:点外卖、订机票、查房源,例如帮你买「秋天的第一杯奶茶」。这意味着,AI 不再是一个“聊天工具”,而是一个能真正替你干活的全能代理人。

     

    背后的支撑技术

     

    AutoGLM 项目于 2023 年底立项,并于 2024 年 10 月推出第一版。最初面临的主要问题是直接操作用户手机或电脑会抢占屏幕,影响用户体验;同时,安卓设备表面上看起来统一,但底层差异巨大,存在本地系统适配与权限问题,以及泛化困难等挑战。

     

    今年 3 月,AutoGLM 沉思实现了 Deep Research(深度研究)与 Browser-Use Agent(浏览器使用代理)的融合,但同样面临本地系统复杂性、浏览器局限性以及关机后无法运行等问题。因此,智谱调整了策略,采用“云端手机 + 云端电脑”的形式。

     

    目前,AutoGLM 2.0 已在国内免费向所有用户开放。智谱认为,Agent 有望成为全新的互联网流量入口。相比传统 Chatbot,Agent 的任务复杂度和消耗量更高——单个任务平均需要超过 256K 的 Token,而 Chatbot 一次对话通常只有 8K,二者相差达 32 倍。

     

    不过,智谱强调,由于 AutoGLM 完全基于国产模型,相较接入海外模型的方案,整体成本降低了一个数量级。

     

    以 Deep Research 任务为例,使用 Claude API 平均成本约为 3–5 美元,而在 AutoGLM 上运行同样任务,模型和虚拟机一起计算,单次成本仅约 0.2 美元,相当于人民币 1 元多一点。

     

    另外,GUI Agent 也是大模型企业近来都关注的方向,包括 Anthropic 和 OpenAI。去年 10 月,Anthropic 发布了他们称之为计算机使用的新 API 模式 Computer Use。OpenAI 也于今年 1 月发布了 Operator Computer,此外市场上还有 Browser Use 等相关产品。

     

    智谱表示,在 Device Use 基准测试(涵盖手机、电脑和网页操作)中,AutoGLM 表现优于 ChatGPT Agent、UI-TARS-1.5 和 Claude Sonnet 4,展现出更强的鲁棒性与通用性,处于主流 Agent 的 SOTA 水平。

     


    在技术层面,AutoGLM 2.0 由智谱语言模型 GLM-4.5 和视觉推理模型 GLM-4.5V 提供支持,并且还结合在“端到端异步强化学习”上的一些新方法,能够完成推理、编程、研究、智能体任务以及图形界面操作等多种工作,并且可以根据需要灵活调用最合适的“子大脑”来执行任务:MobileRL、ComputerRL,以及 AgentRL。

     

    MobileRL 是一个面向移动端 GUI 任务的统一强化学习框架,旨在提升视觉语言智能体的推理能力与训练效率。

     

    大模型驱动的 GUI Agent,整个操作过程由模型自主决策完成,而不是依赖预先编写好的固定流程。它会根据环境动态调整行为,并且能够理解人类给出的自然语言指令,因此并非只能执行某个特定任务的脚本,而是以更通用的方式实现操作。

     

    这也使得它需要在一定程度上适应环境的变化。只要环境变化仍在模型对 UI 的理解范围内,它仍有很高的概率能够正确执行任务。——但这并不代表准确率是 100%。

     

    结合 MobileRL 训练出的 AUTOGLM-Mobile-9B,其在 AndroidWorld 上的成功率为 75.8%,在 AndroidLab 上成功率则为 46.8%。

     

    ComputerRL 是一个面向桌面端任务的统一强化学习框架,旨在提升智能体在复杂数字化工作空间中的操作能力与自主决策效率。

     


    智谱刚刚发布了其论文,ComputerRL 的核心是 API-GUI 范式。它把程序的 API 接口调用和直接的 GUI 操作结合起来,解决了机器智能体和以人为中心的桌面环境之间固有的不匹配问题,使 AI 既能像人一样操作界面,又能利用 API 控制软件。

     

    在 OSWorld 基准测试上,结合了 ComputerRL 训练出的 AUTOGLM-OS-9B,实现了 48.1%的最佳准确率。

     

    智谱的“新物种”:当手机通用 Agent 遇上苹果的谨慎

     

    随着 AI Agent 战争的爆发,智能手机行业正在迎来新的格局变革。而对于智谱这样的国内大模型厂商来说,手机 OEM 厂商可能是一个重要切入点。未来,一部智能手机上预计会同时存在多个 AI Agent,作为应用和服务的入口。手机 OEM 将推广自有 Agent,但第三方开发者也可能推出替代方案,从而形成多 Agent 共存的生态系统。

     


    Meta、腾讯和字节跳动等大型科技公司正准备利用人工智能代理来强化其生态系统。Meta 的代理可能只会通过 WhatsApp 与联系人发送消息,在微信生态系统内,腾讯也有机会创建一个非常独特的 Agent 生态。这些闭环生态会将用户锁定在自家系统,实现对涵盖日常生活各方面的“超级应用”的掌控。

     

    这种变化可能彻底颠覆移动生态。如今,OEM 对应用分发仍有巨大影响力,尤其是在缺乏谷歌移动服务 (GMS) 的中国。但在大模型驱动的时代,如果 OEM 未能占据主动,它们可能会沦为单纯的硬件组装商,对软件、服务乃至收入来源几乎没有控制权。为了抓住这一机遇,OEM 厂商必须立即投资构建开放的 AI 生态系统。而支持独立的 AI 初创公司,并确保第三方代理无缝集成到其设备中,也是对抗巨头的一个方式。也许这就是智谱所瞄准的机会:通过为 OEM 提供手机 AI Agent 解决方案,帮助厂商在 AI 时代重新掌握用户入口,建立开放生态。

     

    不过,目前手机 AI Agent 仍存在任务成功率偏低的明显瓶颈,最重要的还是隐私问题。移动设备是高度私密的个人设备,它们存储着我们的银行应用、健康记录、照片以及其他敏感信息。目前,大部分 AI 研究都只关注如何让 AI“更聪明地”完成任务,却很少有人真正去思考,这些操作背后的隐私和安全隐患。

     

    苹果与华盛顿大学最近就发了一篇论文,研究和训练大模型理解其在手机上操作的后果,他们(如下图)强调:AI 不仅要学会操作设备,更需要理解每一步行为的后果,知道何时该暂停。

     


    截图来源:https://arxiv.org/html/2410.09006v2

     

    长期关注苹果与安全问题的 Andrew Orr 对此评论道:“人类行为复杂且依赖具体情境。假设机器能够毫无差错地处理这种复杂问题,往好说是痴心妄想,往坏说是疏忽大意。必须理解点击背后的人类含义,这对人工智能来说是一项艰巨的任务。”

     

    因此,与其盲目激进推进手机 Agent,不如先以确保行为可控和隐私安全为前提,让手机 Agent 真正具备进入 C 端并被广泛接受的基础。

     

    参考链接:

    https://mp.weixin.qq.com/s/j6BGkYXc8sMsh-iOMYTiaw

    https://x.com/AI_Whisper_X/status/1958029765388169279

    https://arxiv.org/html/2410.09006v2

    2025-08-25 10:294363

    评论

    发布
    暂无评论

    基于Caffe ResNet-50网络实现图片分类(仅推理)的实验复现

    华为云开发者联盟

    人工智能 推理 昇腾 处理器

    中文起,Python 字体反爬实战案例,再一点

    梦想橡皮擦

    Python 爬虫 7月月更

    我写的dubbo扩展jar包如何无侵入的给别人使用

    石臻臻的杂货铺

    7月月更

    字节一面:TCP 和 UDP 可以使用同一个端口吗?

    程序员小毕

    Java 程序员 面试 TCP 计算机网络

    用GaussDB(for Redis)存画像,推荐业务轻松降本60%

    华为云开发者联盟

    数据库 redis 存储 GaussDB ( for Redis ) 用户画像

    Java & Go 专场 | 阿里云中间件开发者线下 Meetup 开启报名

    阿里巴巴云原生

    Java Go 阿里云 云原生 中间件

    基于Netty,从零开发IM(四):编码实践篇(系统优化)

    JackJiang

    网络编程 Netty 即时通讯 im开发 开源im

    2022秋招,Java岗最全面试攻略,吃透25个技术栈Offer拿到手软

    程序猿阿宇

    Java 面试题 面经 Java工程师 秋招

    产品动态丨Android 13 高效适配全新升级

    MobTech袤博科技

    android

    Okaleido上线聚变Mining模式,OKA通证当下产出的唯一方式

    鳄鱼视界

    Plus版SBOM:流水线物料清单PBOM

    SEAL安全

    开源 软件供应链 软件物料清单 SBOM 软件供应链安全

    看了这么多Python教程,最香的还得是……

    博文视点Broadview

    第五届数字中国建设峰会举行,每日互动发布每日治数平台DIOS创新成果

    个推

    大数据 数据中台 数据智能 每日治数平台

    web前端开发技术学习比较靠谱

    小谷哥

    想要做好软件测试,可以先了解AST、SCA和渗透测试

    华为云开发者联盟

    云计算 安全 软件测试 后端 开发

    大数据开发课程怎么学?

    小谷哥

    阿里云技术专家邓青琳:云上跨可用区容灾和异地多活最佳实践

    阿里云弹性计算

    异地多活 多活容灾

    行云管家V6.5.1/2/3系列版本发布:数据库OpenAPI能力持续强化

    行云管家

    数据库 版本 IT运维 行云管家

    华为被迫开源!从认知到落地SpringBoot企业级实战手册(完整版)

    程序猿阿宇

    Java 程序员、 秋招 构架 面试‘

    怎么才能提高自己web前端技术呢?

    小谷哥

    大数据课程培训和自学哪个比较适合?

    小谷哥

    如何把css渐变背景玩出花样来

    南极一块修炼千年的大冰块

    7月月更

    Java编程程序员怎么开发水平?

    小谷哥

    微软Azure和易观分析联合发布《企业级云原生平台驱动数字化转型》报告

    易观分析

    数字化转型

    kafka的Docker镜像使用说明(wurstmeister/kafka)

    程序员欣宸

    kafka 7月月更

    兆骑科创海内外高层次创新创业人才服务平台,双创成果转化平台

    兆骑科创凤阁

    Okaleido生态核心权益OKA,尽在聚变Mining模式

    股市老人

    敞开大门的支付宝,是商家的新掘金地吗?

    ToB行业头条

    物理防火墙是什么?有什么作用?

    行云管家

    网络安全 防火墙

    Kyligence 入选 Gartner 2022 数据管理技术成熟度曲线报告

    Kyligence

    sql查询 Gartner

    首个为手机而生的通用Agent?!苹果做不到的事,“野路子”智谱抢先实现了_生成式 AI_Tina_InfoQ精选文章