写点什么

OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?

  • 2025-01-24
    北京
  • 本文字数:2499 字

    阅读完需:约 8 分钟

大小:1.22M时长:07:05
OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?

整理 |华卫、核子可乐


2025 年了,OpenAI 预热多时要发的超级智能体又一次没赶在前边。直到今日凌晨,OpenAI 才姗姗上线 Operator——一款能够访问 Web 并为用户执行任务的智能体。从今天起,Operator 已面向美国 Pro 套餐用户开放,下一步将扩展至 Plus、Team 以及 Enterprise 用户,并在未来将相关功能集成至 ChatGPT 当中。用户可以要求 Operator 处理各种重复性的浏览器任务,例如填写表格、订购杂货甚至是创建表情包。


而就在昨日,智谱就全新升级了去年 11 月就“抢跑”OpenAI 发布的电脑智能体 GLM-PC ,主打的是“代码思维”,新推出了「深度思考」模式,又增加专用来做逻辑推理和代码生成的功能。


功能体验:Operator“好坏参半”


OpenAI 的首个智能体 Operator 终于到来,好消息是它能帮你自动干不少电脑上的活儿了,但坏消息是“翻车”系数不低。


作为 OpenAI 首款真正模拟人类操作网页浏览器的 Agent,Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。用户可以在多个类别中选择不同的自动化任务,涵盖购物、配送、餐饮和旅行等领域。


期间,用户可以添加其他指令和随时接管控制,Operator 还可以同时运行多项任务。并且,Operator 允许用户保存主页上的快速访问提示词,因此非常适合执行重复类任务。如果用户没有指定网站,Operator 也可以进行浏览,而不是直接进入应用程序或服务。对于关键操作,Operator 会要求用户确认。


技术方面,Operator 可以对浏览器进行“查看”(通过屏幕截图)、和“交互”(使用鼠标和键盘支持所有操作),因此能够在 Web 之上执行操作且无需自定义 API 集成。一旦遭遇难题或者错误,Operator 还可利用其推理能力实现自我纠正。


在 OpenAI 的官方演示中,Operator 执行了餐厅预订、网购、抢勇士队比赛门票、预约清洁服务以及点外卖等多种场景的任务。然而,演示过程却不是全程一帆风顺,刚开始的演示是正常进行,但到了后半段的演示却频频“翻车”,甚至未能成功加载相关网页。


而 Operator 的官方介绍也强调,其目前仅提供研究预览版,虽然已经能够处理各类任务,但仍在学习和发展的过程当中很可能会犯错。例如,其目前在创建幻灯片或者管理日历等复杂界面中仍然表现不佳。因此,Operator 尚有局限性并将根据用户反馈进一步完善。


相比之下,智谱的 GLM-PC 已经是进行了一轮升级的“第二代”版本了。去年 11 月,GLM-PC v1.0 在 CogAgent 开源模型的基础上强化了感知、规划、创造能力,并实现有限的自我纠正现在的新版 v1.1 则在规划和推理上作了更多的优化。


根据官方介绍,GLM-PC 不仅能够处理复杂逻辑任务,还能在开放性问题上展现更高的适应能力、创造力和泛化能力,更能通过动态优化和情境感知,帮助用户探索更高效的解决方案,特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。 

在实例展示中,GLM-PC 能够自动为微信群好友定制个性化新春祝福语及祝贺图片 / 视频,并通过一键操作实现群发,高效完成节日问候;能为用户快速查询航班信息,筛选最经济机票,并同步设置飞书日历提醒,实现航班查询、购票筛选到日程安排的一站式服务。 


技术水平:谁家 Agent 模型略逊一筹?

尽管都是通过人类一样“观察”和“操作”计算机来帮助用户完成各类电脑任务,但 Operator 与智谱 GLM-PC 在工作原理上也有很大不同。


Operator 由一套名为 Computer-Using Agent(计算机使用智能体,简称 CUA)的新模型提供支持,CUA 将 GPT-4o 的视觉功能与通过强化学习进行的高级推理相结合,在训练之后能够与图形用户界面(GUI)进行交互——即人们在屏幕上看到的按钮、菜单和文本字段。


而新升级的 GLM-PC 采用的是“左右脑”协作的模式,左脑负责代码生成与逻辑执行,右脑专注于深度感知与交互体验,背后的支撑是智谱自主研发的多模态 Agent 模型 CogAgent 与代码模型 CodeGeex。

具体到该智能体运转的过程,GLM-PC 是以代码形式指挥工作流程和工具调用,期间强化深度思考模式下的规划、推理、反思能力,从而能够稳定高效地应对复杂场景与任务。并且在实际执行时,GLM-PC 能感知多层环境反馈,协助反思,以有效自我纠正与优化。 


总体来看,两家发布的电脑智能体在技术路线上各有千秋。不过,有评测结果显示,CogAgent 在 GUI 定位(Screenspot)、单步操作(OmniAct)、中文 step-wise 榜单(CogAgentBench-basic-cn)、多步操作(OSWorld)都取得了不错的结果,但在 OSworld 上略逊于针对 Computer Use 特化的 Claude-3.5-Sonnet 和结合外接 GUI grounding 模型的 GPT-4o。


超级智能体的未来


下一步,OpenAI 计划很快在 API 中公开支持 Operator 的模型 CUA,以便开发人员能够使用它来构建自己的计算机使用智能体。智谱则准备将 GLM-PC 与 AIPC 深度融合。据称,智谱正与联想、华硕等知名 PC 厂商展开深度合作探讨。


“2025 年是 Agent 之年”,在各家接二连三的智能体产品发布后,许多人都如此感叹。OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 对此公开表示,“就我个人而言,我认为 2025 - 2035 年这十年是智能体的十年。要让它真正发挥作用,我感觉方方面面都有大量工作要做。但它应该能行得通。”


同时其指出,像 OpenAI 的 Operator 这样的项目之于数字世界,就如同类人机器人之于物理世界。人类

会成为低级自动化的高级主管,有点像司机监控自动驾驶系统。这种情况在数字世界发生的速度会比物理世界快,因为翻转比特的成本大约比移动原子低 1000 倍。


“未来,大家可以组建 Operator 团队,让它们执行选定的长期任务,甚至是运营一整家公司——像 CEO 一样,同时监督十个这样的团队,偶尔可能还得深入一线解决某个障碍。”


Karpathy 还透露,在 OpenAI 成立初期他们就研究过这个想法(参见 Universe 和 World of Bits 项目),但顺序有误——大语言模型必须先出现。但即便到现在,他也不能百分百确定时机是否成熟。毕竟多模态在过去一两年才勉强与大语言模型整合,而且往往是作为适配器附加的。更糟糕的是,LLM 还没有真正涉足过任务周期极长的领域。例如,当视频包含海量信息,是否能把所有信息都塞进上下文窗口(当前范式),然后还指望它能正常运行。


参考链接:

https://openai.com/index/introducing-operator/

2025-01-24 13:597460

评论

发布
暂无评论

“四个维度” 讲明白什么是微服务!

攀岩飞鱼

微服务 单体系统 架构设计 团队组织 康威定律

零基础如何学架构

兆熊

架构

阿里巴巴泰山版《Java 开发者手册》,也是一份防坑指南

古时的风筝

Java规范 Java开发手册

记一次MHA切换故障踩的坑

一个有志气的DB

MySQL 高可用 复制 主从同步 故障分析

找一个更好的理由

史方远

职场 成长 工作

为什么软件开发很难外包

刘华Kenneth

外包 DevOps 风险 背锅

初次见面

KAMI

JVM源码分析之Object.wait/notify实现

猿灯塔

JVM

程序员的晚餐 | 5 月 15 日 如果不写代码了,那就开个饺子店

清远

美食

一篇文章搞定Java处理Excel的各种疑难杂症

知春秋

Java Excel POI

Azure App 部署Django 和 PostgrSQL

yann [扬] :曹同学

Python azure

Leetcode 556. Next Greater Element III

隔壁小王

算法

网站系统架构演进

Janenesome

读书笔记 程序员 架构 系统设计

服务发现:ZooKeeper vs etcd vs Consul

Tux Hu

Docker 容器 微服务 etcd Consul

Web3极客日报#140

谢锐 | Frozen

区块链 独立开发者 技术社区 Rebase Web3 Daily

elasticsearch源码解析(一)——restapi

罗琦

elasticsearch 源码分析 RESTful

游戏夜读 | Scikit-learn的2018自述

game1night

决战下半场:小程序技术助力金融APP重回C位

FinClip

小程序 数字化转型 app重构

谈谈控制感(4):损失的后果很严重

史方远

职场 心理 成长

数列找规律的问题

oldj

数学

回“疫”录(17):返宁的前一天

小天同学

疫情 回忆录 现实纪录 纪实

看完这篇HTTP,跟面试官扯皮就没问题了

苹果看辽宁体育

https okhttp

如何在 Mac 上优雅的截图和录屏

Winann

macos 效率 效率工具 Mac

高仿瑞幸小程序 09 云数据库初体验

曾伟@喵先森

小程序 微信小程序 大前端 移动

谈谈双亲委派模型的第四次破坏-模块化

寻筝

Java JVM

Java实现Base64

Java

奔腾吧,“后浪”李子柒!

无量靠谱

网红

浅析 - CocoaLumberjack 3.6 之 DatabaseLogger

Edmond

ios sqlite log4j CocoaLumberjack DDLog

游戏发行中学到的重要经验(严肃长文)

谢锐 | Frozen

独立开发者 游戏开发 游戏出海 移动互联网

经历过疫情,你懂得了什么

Winann

疫情 个人成长 生活 成长

战略懒惰有多可怕

Neco.W

创业 重新理解创业 初创公司

OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?_生成式 AI_华卫_InfoQ精选文章