写点什么

OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?

  • 2025-01-24
    北京
  • 本文字数:2499 字

    阅读完需:约 8 分钟

大小:1.22M时长:07:05
OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?

整理 |华卫、核子可乐


2025 年了,OpenAI 预热多时要发的超级智能体又一次没赶在前边。直到今日凌晨,OpenAI 才姗姗上线 Operator——一款能够访问 Web 并为用户执行任务的智能体。从今天起,Operator 已面向美国 Pro 套餐用户开放,下一步将扩展至 Plus、Team 以及 Enterprise 用户,并在未来将相关功能集成至 ChatGPT 当中。用户可以要求 Operator 处理各种重复性的浏览器任务,例如填写表格、订购杂货甚至是创建表情包。


而就在昨日,智谱就全新升级了去年 11 月就“抢跑”OpenAI 发布的电脑智能体 GLM-PC ,主打的是“代码思维”,新推出了「深度思考」模式,又增加专用来做逻辑推理和代码生成的功能。


功能体验:Operator“好坏参半”


OpenAI 的首个智能体 Operator 终于到来,好消息是它能帮你自动干不少电脑上的活儿了,但坏消息是“翻车”系数不低。


作为 OpenAI 首款真正模拟人类操作网页浏览器的 Agent,Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。用户可以在多个类别中选择不同的自动化任务,涵盖购物、配送、餐饮和旅行等领域。


期间,用户可以添加其他指令和随时接管控制,Operator 还可以同时运行多项任务。并且,Operator 允许用户保存主页上的快速访问提示词,因此非常适合执行重复类任务。如果用户没有指定网站,Operator 也可以进行浏览,而不是直接进入应用程序或服务。对于关键操作,Operator 会要求用户确认。


技术方面,Operator 可以对浏览器进行“查看”(通过屏幕截图)、和“交互”(使用鼠标和键盘支持所有操作),因此能够在 Web 之上执行操作且无需自定义 API 集成。一旦遭遇难题或者错误,Operator 还可利用其推理能力实现自我纠正。


在 OpenAI 的官方演示中,Operator 执行了餐厅预订、网购、抢勇士队比赛门票、预约清洁服务以及点外卖等多种场景的任务。然而,演示过程却不是全程一帆风顺,刚开始的演示是正常进行,但到了后半段的演示却频频“翻车”,甚至未能成功加载相关网页。


而 Operator 的官方介绍也强调,其目前仅提供研究预览版,虽然已经能够处理各类任务,但仍在学习和发展的过程当中很可能会犯错。例如,其目前在创建幻灯片或者管理日历等复杂界面中仍然表现不佳。因此,Operator 尚有局限性并将根据用户反馈进一步完善。


相比之下,智谱的 GLM-PC 已经是进行了一轮升级的“第二代”版本了。去年 11 月,GLM-PC v1.0 在 CogAgent 开源模型的基础上强化了感知、规划、创造能力,并实现有限的自我纠正现在的新版 v1.1 则在规划和推理上作了更多的优化。


根据官方介绍,GLM-PC 不仅能够处理复杂逻辑任务,还能在开放性问题上展现更高的适应能力、创造力和泛化能力,更能通过动态优化和情境感知,帮助用户探索更高效的解决方案,特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。 

在实例展示中,GLM-PC 能够自动为微信群好友定制个性化新春祝福语及祝贺图片 / 视频,并通过一键操作实现群发,高效完成节日问候;能为用户快速查询航班信息,筛选最经济机票,并同步设置飞书日历提醒,实现航班查询、购票筛选到日程安排的一站式服务。 


技术水平:谁家 Agent 模型略逊一筹?

尽管都是通过人类一样“观察”和“操作”计算机来帮助用户完成各类电脑任务,但 Operator 与智谱 GLM-PC 在工作原理上也有很大不同。


Operator 由一套名为 Computer-Using Agent(计算机使用智能体,简称 CUA)的新模型提供支持,CUA 将 GPT-4o 的视觉功能与通过强化学习进行的高级推理相结合,在训练之后能够与图形用户界面(GUI)进行交互——即人们在屏幕上看到的按钮、菜单和文本字段。


而新升级的 GLM-PC 采用的是“左右脑”协作的模式,左脑负责代码生成与逻辑执行,右脑专注于深度感知与交互体验,背后的支撑是智谱自主研发的多模态 Agent 模型 CogAgent 与代码模型 CodeGeex。

具体到该智能体运转的过程,GLM-PC 是以代码形式指挥工作流程和工具调用,期间强化深度思考模式下的规划、推理、反思能力,从而能够稳定高效地应对复杂场景与任务。并且在实际执行时,GLM-PC 能感知多层环境反馈,协助反思,以有效自我纠正与优化。 


总体来看,两家发布的电脑智能体在技术路线上各有千秋。不过,有评测结果显示,CogAgent 在 GUI 定位(Screenspot)、单步操作(OmniAct)、中文 step-wise 榜单(CogAgentBench-basic-cn)、多步操作(OSWorld)都取得了不错的结果,但在 OSworld 上略逊于针对 Computer Use 特化的 Claude-3.5-Sonnet 和结合外接 GUI grounding 模型的 GPT-4o。


超级智能体的未来


下一步,OpenAI 计划很快在 API 中公开支持 Operator 的模型 CUA,以便开发人员能够使用它来构建自己的计算机使用智能体。智谱则准备将 GLM-PC 与 AIPC 深度融合。据称,智谱正与联想、华硕等知名 PC 厂商展开深度合作探讨。


“2025 年是 Agent 之年”,在各家接二连三的智能体产品发布后,许多人都如此感叹。OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 对此公开表示,“就我个人而言,我认为 2025 - 2035 年这十年是智能体的十年。要让它真正发挥作用,我感觉方方面面都有大量工作要做。但它应该能行得通。”


同时其指出,像 OpenAI 的 Operator 这样的项目之于数字世界,就如同类人机器人之于物理世界。人类

会成为低级自动化的高级主管,有点像司机监控自动驾驶系统。这种情况在数字世界发生的速度会比物理世界快,因为翻转比特的成本大约比移动原子低 1000 倍。


“未来,大家可以组建 Operator 团队,让它们执行选定的长期任务,甚至是运营一整家公司——像 CEO 一样,同时监督十个这样的团队,偶尔可能还得深入一线解决某个障碍。”


Karpathy 还透露,在 OpenAI 成立初期他们就研究过这个想法(参见 Universe 和 World of Bits 项目),但顺序有误——大语言模型必须先出现。但即便到现在,他也不能百分百确定时机是否成熟。毕竟多模态在过去一两年才勉强与大语言模型整合,而且往往是作为适配器附加的。更糟糕的是,LLM 还没有真正涉足过任务周期极长的领域。例如,当视频包含海量信息,是否能把所有信息都塞进上下文窗口(当前范式),然后还指望它能正常运行。


参考链接:

https://openai.com/index/introducing-operator/

2025-01-24 13:597554

评论

发布
暂无评论

历经4轮2小时,终于斩下美团offer!

爱好编程进阶

Java 面试 后端开发

字节奋战7年,回头一看只剩下这份1857页的算法笔记了

爱好编程进阶

Java 面试 后端开发

或许你不知道的12条SQL技巧

乌龟哥哥

4月月更

外包学生管理系统的架构文档

鱼恨水

大量示例彻底搞懂Linux查找,which,whereis

爱好编程进阶

Java 面试 后端开发

MapReduce服务初体验

乌龟哥哥

4月月更

外包学生管理系统详细架构设计文档

高山觅流水

「架构实战营」

图文并茂 教你在IDEA中如何一键生成代码,提高开发效率!

爱好编程进阶

Java 面试 后端开发

并发工具之Semaphore与Exchanger

爱好编程进阶

Java 面试 后端开发

10分钟快速入门RDS

乌龟哥哥

4月月更

EventBridge 集成云服务实践

阿里巴巴云原生

大数据基础处理框架

爱好编程进阶

Java 面试 后端开发

大爆料!Github上100%好评的Java多线程池面试题

爱好编程进阶

Java 面试 后端开发

分布式shiro权限验证 二

Rubble

4月日更

在线CSV转YAML工具

入门小站

工具

CDF全球调查:软件交付性能停滞不前

飞算JavaAI开发助手

哪路神仙写的421页MySQL高级笔记,涵盖MySQL所有技术!太香了

爱好编程进阶

Java 面试 后端开发

再谈企业信息化的本质

秋去冬来春未远

信息化本质

学生管理系统的架构文档

Kevin

「架构实战营」

云原生微服务的下一站,微服务引擎 MSE 重磅升级

阿里巴巴云原生

性能调优篇:困扰我半年之久的RocketMQ timeout exception 终于破解了

爱好编程进阶

Java 面试 后端开发

基于华为云图像识别标签

乌龟哥哥

4月月更

模块三作业 架构设计文档

库尔斯

架构实战营

linux之lscpu命令

入门小站

工作总结!日志打印的15个建议

爱好编程进阶

Java 面试 后端开发

开发者工具 Top 100 名单

爱好编程进阶

Java 面试 后端开发

Module-3:外包学生管理系统架构设计文档

Jadedev

架构训练营

在线YAML转Properties工具

入门小站

工具

外包学生管理系统架构设计文档

大眼喵

「架构实战营」

模块三作业

天琪实刚亮

OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?_生成式 AI_华卫_InfoQ精选文章