写点什么

OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?

  • 2025-01-24
    北京
  • 本文字数:2499 字

    阅读完需:约 8 分钟

大小:1.22M时长:07:05
OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?

整理 |华卫、核子可乐


2025 年了,OpenAI 预热多时要发的超级智能体又一次没赶在前边。直到今日凌晨,OpenAI 才姗姗上线 Operator——一款能够访问 Web 并为用户执行任务的智能体。从今天起,Operator 已面向美国 Pro 套餐用户开放,下一步将扩展至 Plus、Team 以及 Enterprise 用户,并在未来将相关功能集成至 ChatGPT 当中。用户可以要求 Operator 处理各种重复性的浏览器任务,例如填写表格、订购杂货甚至是创建表情包。


而就在昨日,智谱就全新升级了去年 11 月就“抢跑”OpenAI 发布的电脑智能体 GLM-PC ,主打的是“代码思维”,新推出了「深度思考」模式,又增加专用来做逻辑推理和代码生成的功能。


功能体验:Operator“好坏参半”


OpenAI 的首个智能体 Operator 终于到来,好消息是它能帮你自动干不少电脑上的活儿了,但坏消息是“翻车”系数不低。


作为 OpenAI 首款真正模拟人类操作网页浏览器的 Agent,Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。用户可以在多个类别中选择不同的自动化任务,涵盖购物、配送、餐饮和旅行等领域。


期间,用户可以添加其他指令和随时接管控制,Operator 还可以同时运行多项任务。并且,Operator 允许用户保存主页上的快速访问提示词,因此非常适合执行重复类任务。如果用户没有指定网站,Operator 也可以进行浏览,而不是直接进入应用程序或服务。对于关键操作,Operator 会要求用户确认。


技术方面,Operator 可以对浏览器进行“查看”(通过屏幕截图)、和“交互”(使用鼠标和键盘支持所有操作),因此能够在 Web 之上执行操作且无需自定义 API 集成。一旦遭遇难题或者错误,Operator 还可利用其推理能力实现自我纠正。


在 OpenAI 的官方演示中,Operator 执行了餐厅预订、网购、抢勇士队比赛门票、预约清洁服务以及点外卖等多种场景的任务。然而,演示过程却不是全程一帆风顺,刚开始的演示是正常进行,但到了后半段的演示却频频“翻车”,甚至未能成功加载相关网页。


而 Operator 的官方介绍也强调,其目前仅提供研究预览版,虽然已经能够处理各类任务,但仍在学习和发展的过程当中很可能会犯错。例如,其目前在创建幻灯片或者管理日历等复杂界面中仍然表现不佳。因此,Operator 尚有局限性并将根据用户反馈进一步完善。


相比之下,智谱的 GLM-PC 已经是进行了一轮升级的“第二代”版本了。去年 11 月,GLM-PC v1.0 在 CogAgent 开源模型的基础上强化了感知、规划、创造能力,并实现有限的自我纠正现在的新版 v1.1 则在规划和推理上作了更多的优化。


根据官方介绍,GLM-PC 不仅能够处理复杂逻辑任务,还能在开放性问题上展现更高的适应能力、创造力和泛化能力,更能通过动态优化和情境感知,帮助用户探索更高效的解决方案,特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。 

在实例展示中,GLM-PC 能够自动为微信群好友定制个性化新春祝福语及祝贺图片 / 视频,并通过一键操作实现群发,高效完成节日问候;能为用户快速查询航班信息,筛选最经济机票,并同步设置飞书日历提醒,实现航班查询、购票筛选到日程安排的一站式服务。 


技术水平:谁家 Agent 模型略逊一筹?

尽管都是通过人类一样“观察”和“操作”计算机来帮助用户完成各类电脑任务,但 Operator 与智谱 GLM-PC 在工作原理上也有很大不同。


Operator 由一套名为 Computer-Using Agent(计算机使用智能体,简称 CUA)的新模型提供支持,CUA 将 GPT-4o 的视觉功能与通过强化学习进行的高级推理相结合,在训练之后能够与图形用户界面(GUI)进行交互——即人们在屏幕上看到的按钮、菜单和文本字段。


而新升级的 GLM-PC 采用的是“左右脑”协作的模式,左脑负责代码生成与逻辑执行,右脑专注于深度感知与交互体验,背后的支撑是智谱自主研发的多模态 Agent 模型 CogAgent 与代码模型 CodeGeex。

具体到该智能体运转的过程,GLM-PC 是以代码形式指挥工作流程和工具调用,期间强化深度思考模式下的规划、推理、反思能力,从而能够稳定高效地应对复杂场景与任务。并且在实际执行时,GLM-PC 能感知多层环境反馈,协助反思,以有效自我纠正与优化。 


总体来看,两家发布的电脑智能体在技术路线上各有千秋。不过,有评测结果显示,CogAgent 在 GUI 定位(Screenspot)、单步操作(OmniAct)、中文 step-wise 榜单(CogAgentBench-basic-cn)、多步操作(OSWorld)都取得了不错的结果,但在 OSworld 上略逊于针对 Computer Use 特化的 Claude-3.5-Sonnet 和结合外接 GUI grounding 模型的 GPT-4o。


超级智能体的未来


下一步,OpenAI 计划很快在 API 中公开支持 Operator 的模型 CUA,以便开发人员能够使用它来构建自己的计算机使用智能体。智谱则准备将 GLM-PC 与 AIPC 深度融合。据称,智谱正与联想、华硕等知名 PC 厂商展开深度合作探讨。


“2025 年是 Agent 之年”,在各家接二连三的智能体产品发布后,许多人都如此感叹。OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 对此公开表示,“就我个人而言,我认为 2025 - 2035 年这十年是智能体的十年。要让它真正发挥作用,我感觉方方面面都有大量工作要做。但它应该能行得通。”


同时其指出,像 OpenAI 的 Operator 这样的项目之于数字世界,就如同类人机器人之于物理世界。人类

会成为低级自动化的高级主管,有点像司机监控自动驾驶系统。这种情况在数字世界发生的速度会比物理世界快,因为翻转比特的成本大约比移动原子低 1000 倍。


“未来,大家可以组建 Operator 团队,让它们执行选定的长期任务,甚至是运营一整家公司——像 CEO 一样,同时监督十个这样的团队,偶尔可能还得深入一线解决某个障碍。”


Karpathy 还透露,在 OpenAI 成立初期他们就研究过这个想法(参见 Universe 和 World of Bits 项目),但顺序有误——大语言模型必须先出现。但即便到现在,他也不能百分百确定时机是否成熟。毕竟多模态在过去一两年才勉强与大语言模型整合,而且往往是作为适配器附加的。更糟糕的是,LLM 还没有真正涉足过任务周期极长的领域。例如,当视频包含海量信息,是否能把所有信息都塞进上下文窗口(当前范式),然后还指望它能正常运行。


参考链接:

https://openai.com/index/introducing-operator/

2025-01-24 13:597672

评论

发布
暂无评论

Nano Banana Pro实测!用Lovart搞定全流程营销,效率开挂!

阿星AI工作室

学习 产品 AI 设计 人工智能、

时序数据库 TDengine 荣获第8届 AiDD 峰会“AI 研发应用场景创新奖”

TDengine

从技术突破到产业价值|焱融YRCache推理方案连续入选两大行业标杆案例

焱融科技

AI推理 大模型推理 YRCache

Java与AI融合创新!龙蜥邀您参加 GreenTeaJUG MeetUp

OpenAnolis小助手

Java 操作系统 Meetup

骁龙AI大赛公开课一答疑汇总来啦

极市平台

2025骁龙AI大赛报名常见问题 FAQ

极市平台

还有谁?不会用DeepSeek + Spec Driven Design来设计CAD复杂零件

行云创新

AI大模型 CAD设计 AI辅助CAD设计 AI+工业

基于华为开发者空间-云开发环境(容器)+MaaS大模型构建智能写作助手应用

华为云开发者联盟

人工智能 华为 程序员 华为云开发者联盟 华为开发者空间

相得益彰:Mem0 记忆框架与亚马逊云科技的企业级 AI 实践

亚马逊云科技 (Amazon Web Services)

人工智能

2025 SECon+AgentX 大会 — AI 原生应用架构专场

阿里巴巴云原生

阿里云 云原生

别再盲目地堆砌技术了!大部份大数据项目的失败,都是因为架构设计没做对!

六边形架构

大数据 架构设计 技术架构 大数据平台 企业数据平台

性能优化 | HarmonyOS预加载,三步即可提升APP页面的响应速度

HarmonyOS SDK

HarmonyOS NEXT HarmonyOS SDK应用服务

元数据的"分"与"合":面向 AI 时代的高性能分布式文件系统设计

焱融科技

AI 分布式文件系统 大模型训练 元数据管理

关于EPOLL触发的事件说明

天翼云开发者社区

CDN 网络

腾讯音乐如何基于 AutoMQ 降低 Kafka 50%+ 成本

AutoMQ

具身开放日点燃生态引擎,智源以开源开放驱动具身智能创新

智源研究院

焱融科技亮相数据存储产业大会斩获重磅荣誉,CTO当选首批认证专家

焱融科技

AI存储 2025数据存储产业大会

阿里云 Elasticsearch 的 AI 革新:高性能、低成本、智能化的搜索新纪元

阿里云大数据AI技术

人工智能 elasticsearch 阿里云 搜索 检索

一次编译器优化的陷阱

天翼云开发者社区

CDN

基于华为开发者空间-云开发环境(容器)+ Versatile Agent,构建AI轻量级智能办公助手

华为云开发者联盟

人工智能 华为 华为云开发者联盟 AI Agent 华为开发者空间

下周感恩节!文心快码助力感恩节抽奖页快速开发

Comate编码助手

AI 代码助手 文心快码 文心快码Zulu 文心快码3.5S AI编程助手

谷歌Nano Banana Pro来袭:会推理的AI,重塑视觉创作

GPU算力

简单竞态条件漏洞如何击垮全球SaaS平台

qife122

网络安全 竞态条件

通过条件访问策略增强企业的安全性

运维有小邓

密码管理

益和热力性能优化实践:从 SQL Server 到时序数据库 TDengine

TDengine

Karmada 用户组再迎新成员,共绩科技正式加入 !

华为云原生团队

云计算 容器 云原生 Karmada

数字孪生项目的开发方法与流程

北京木奇移动技术有限公司

数字孪生 软件外包公司 webgl开发

数字孪生项目开发的技术

北京木奇移动技术有限公司

数字孪生 软件外包公司 webgl开发

基于华为开发者空间开发平台-云开发环境(容器),完成贪吃蛇小游戏开发

华为云开发者联盟

Python 华为 程序员 华为开发者空间

AI 技术在英语教育中的应用

北京木奇移动技术有限公司

AI教育 软件外包公司 AI英语

工业+ AI 实践:AI 大模型与智能体深度融合工业 CAD/CAE/PLM

行云创新

智能体 工业智能体 AI 大模型 AI+工业 AI辅助 CAD 设计

OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?_生成式 AI_华卫_InfoQ精选文章