写点什么

OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?

  • 2025-01-24
    北京
  • 本文字数:2499 字

    阅读完需:约 8 分钟

大小:1.22M时长:07:05
OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?

整理 |华卫、核子可乐


2025 年了,OpenAI 预热多时要发的超级智能体又一次没赶在前边。直到今日凌晨,OpenAI 才姗姗上线 Operator——一款能够访问 Web 并为用户执行任务的智能体。从今天起,Operator 已面向美国 Pro 套餐用户开放,下一步将扩展至 Plus、Team 以及 Enterprise 用户,并在未来将相关功能集成至 ChatGPT 当中。用户可以要求 Operator 处理各种重复性的浏览器任务,例如填写表格、订购杂货甚至是创建表情包。


而就在昨日,智谱就全新升级了去年 11 月就“抢跑”OpenAI 发布的电脑智能体 GLM-PC ,主打的是“代码思维”,新推出了「深度思考」模式,又增加专用来做逻辑推理和代码生成的功能。


功能体验:Operator“好坏参半”


OpenAI 的首个智能体 Operator 终于到来,好消息是它能帮你自动干不少电脑上的活儿了,但坏消息是“翻车”系数不低。


作为 OpenAI 首款真正模拟人类操作网页浏览器的 Agent,Operator 能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。用户可以在多个类别中选择不同的自动化任务,涵盖购物、配送、餐饮和旅行等领域。


期间,用户可以添加其他指令和随时接管控制,Operator 还可以同时运行多项任务。并且,Operator 允许用户保存主页上的快速访问提示词,因此非常适合执行重复类任务。如果用户没有指定网站,Operator 也可以进行浏览,而不是直接进入应用程序或服务。对于关键操作,Operator 会要求用户确认。


技术方面,Operator 可以对浏览器进行“查看”(通过屏幕截图)、和“交互”(使用鼠标和键盘支持所有操作),因此能够在 Web 之上执行操作且无需自定义 API 集成。一旦遭遇难题或者错误,Operator 还可利用其推理能力实现自我纠正。


在 OpenAI 的官方演示中,Operator 执行了餐厅预订、网购、抢勇士队比赛门票、预约清洁服务以及点外卖等多种场景的任务。然而,演示过程却不是全程一帆风顺,刚开始的演示是正常进行,但到了后半段的演示却频频“翻车”,甚至未能成功加载相关网页。


而 Operator 的官方介绍也强调,其目前仅提供研究预览版,虽然已经能够处理各类任务,但仍在学习和发展的过程当中很可能会犯错。例如,其目前在创建幻灯片或者管理日历等复杂界面中仍然表现不佳。因此,Operator 尚有局限性并将根据用户反馈进一步完善。


相比之下,智谱的 GLM-PC 已经是进行了一轮升级的“第二代”版本了。去年 11 月,GLM-PC v1.0 在 CogAgent 开源模型的基础上强化了感知、规划、创造能力,并实现有限的自我纠正现在的新版 v1.1 则在规划和推理上作了更多的优化。


根据官方介绍,GLM-PC 不仅能够处理复杂逻辑任务,还能在开放性问题上展现更高的适应能力、创造力和泛化能力,更能通过动态优化和情境感知,帮助用户探索更高效的解决方案,特别是在循环任务处理、多步推理执行以及长链条任务管理等方面。 

在实例展示中,GLM-PC 能够自动为微信群好友定制个性化新春祝福语及祝贺图片 / 视频,并通过一键操作实现群发,高效完成节日问候;能为用户快速查询航班信息,筛选最经济机票,并同步设置飞书日历提醒,实现航班查询、购票筛选到日程安排的一站式服务。 


技术水平:谁家 Agent 模型略逊一筹?

尽管都是通过人类一样“观察”和“操作”计算机来帮助用户完成各类电脑任务,但 Operator 与智谱 GLM-PC 在工作原理上也有很大不同。


Operator 由一套名为 Computer-Using Agent(计算机使用智能体,简称 CUA)的新模型提供支持,CUA 将 GPT-4o 的视觉功能与通过强化学习进行的高级推理相结合,在训练之后能够与图形用户界面(GUI)进行交互——即人们在屏幕上看到的按钮、菜单和文本字段。


而新升级的 GLM-PC 采用的是“左右脑”协作的模式,左脑负责代码生成与逻辑执行,右脑专注于深度感知与交互体验,背后的支撑是智谱自主研发的多模态 Agent 模型 CogAgent 与代码模型 CodeGeex。

具体到该智能体运转的过程,GLM-PC 是以代码形式指挥工作流程和工具调用,期间强化深度思考模式下的规划、推理、反思能力,从而能够稳定高效地应对复杂场景与任务。并且在实际执行时,GLM-PC 能感知多层环境反馈,协助反思,以有效自我纠正与优化。 


总体来看,两家发布的电脑智能体在技术路线上各有千秋。不过,有评测结果显示,CogAgent 在 GUI 定位(Screenspot)、单步操作(OmniAct)、中文 step-wise 榜单(CogAgentBench-basic-cn)、多步操作(OSWorld)都取得了不错的结果,但在 OSworld 上略逊于针对 Computer Use 特化的 Claude-3.5-Sonnet 和结合外接 GUI grounding 模型的 GPT-4o。


超级智能体的未来


下一步,OpenAI 计划很快在 API 中公开支持 Operator 的模型 CUA,以便开发人员能够使用它来构建自己的计算机使用智能体。智谱则准备将 GLM-PC 与 AIPC 深度融合。据称,智谱正与联想、华硕等知名 PC 厂商展开深度合作探讨。


“2025 年是 Agent 之年”,在各家接二连三的智能体产品发布后,许多人都如此感叹。OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 对此公开表示,“就我个人而言,我认为 2025 - 2035 年这十年是智能体的十年。要让它真正发挥作用,我感觉方方面面都有大量工作要做。但它应该能行得通。”


同时其指出,像 OpenAI 的 Operator 这样的项目之于数字世界,就如同类人机器人之于物理世界。人类

会成为低级自动化的高级主管,有点像司机监控自动驾驶系统。这种情况在数字世界发生的速度会比物理世界快,因为翻转比特的成本大约比移动原子低 1000 倍。


“未来,大家可以组建 Operator 团队,让它们执行选定的长期任务,甚至是运营一整家公司——像 CEO 一样,同时监督十个这样的团队,偶尔可能还得深入一线解决某个障碍。”


Karpathy 还透露,在 OpenAI 成立初期他们就研究过这个想法(参见 Universe 和 World of Bits 项目),但顺序有误——大语言模型必须先出现。但即便到现在,他也不能百分百确定时机是否成熟。毕竟多模态在过去一两年才勉强与大语言模型整合,而且往往是作为适配器附加的。更糟糕的是,LLM 还没有真正涉足过任务周期极长的领域。例如,当视频包含海量信息,是否能把所有信息都塞进上下文窗口(当前范式),然后还指望它能正常运行。


参考链接:

https://openai.com/index/introducing-operator/

2025-01-24 13:597337

评论

发布
暂无评论

订单管理系统(OMS)搭建实战 - 低代码拖拽定制订单管理系统

蒋川

低代码 低代码开发 低代码平台 订单系统 订单管理系统

哈希值游戏DAPP开发|区块链哈希值竞猜游戏开发

薇電13242772558

区块链 哈希值

Tomcat:应用加载原理分析

IT巅峰技术

Tomccat

架构实战营 第 6 期 模块二课后作业

火钳刘明

#架构实战营 「架构实战营」

LotusDB 设计与实现—1 基本概念

roseduan

Go 数据库 存储

设置 Jupyter Notebook 主题

信号量

Python Jupyter Notebook notebook 主题 科学计算

CRMEB多商户后台前端代码打包并更新打包的代码到项目里面教程详解

CRMEB

网络安全之红蓝对抗实战

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

在终端中使用 GitHub Personal Access Token 访问仓库

信号量

从单机定时到多层分发

程序员小航

Java 定时任务 XXL-JOB

Java 初始化 List 的几种方法

HoneyMoose

微服务分布式事务处理

俞凡

架构 微服务

模块2作业

KennyQ

框架中的自定义网关

Rubble

4月日更

MariaDB 的自增字段 AUTO_INCREMENT 字段

HoneyMoose

基于 HTML+CSS+JS 的纸牌记忆游戏

海拥(haiyong.site)

html 游戏 4月月更

前端食堂技术周刊第 32 期:2022 年 3 月 TC39 会议、Rome Formatter、Node 内置 Test Runner

童欧巴

JavaScript 程序员 前端 web前端

Linux驱动开发-编写NEC红外线协议解码驱动

DS小龙哥

4月月更

Substrate Builders Program | 了解波卡生态云计算平台与最先进的查询节点框架

One Block Community

区块链 Substrate 波卡

手写实现分布式锁

Linux服务器开发

分布式锁 协程 定时器 后端开发 Linux服务器开发

C/C++程序员黄金方向-音视频基础知识和ffmpeg编译

玩转音视频技术

HLS SRS 音视频开发 流媒体开发 C/C++程序员

自己动手写Docker系列 -- 5.3实现logs命令查看容器日志

golang Docker

Go 学习笔记——Only For

为自己带盐

Go 4月月更

全链路压测(九):容量评估和容量规划

老张

性能测试 全链路压测 稳定性保障

架构师作业2

小虾米

架构师实战营

关于数据湖几个问题详细剖析

五分钟学大数据

数据湖 4月月更

Spring定义BeanDefinition

IT巅峰技术

crmeb Java 项目打包可运行jar文件详细教程

CRMEB

对话核心开发者,波卡的EVM+最新技术分享活动回顾

One Block Community

区块链 Substrate EVM 波卡

音视频&流媒体的原理以及基础入门知识

玩转音视频技术

Linux SRS 音视频开发 流媒体开发

茴字有四种写法,HTAP呢?

MatrixOrigin

数据库 MatrixOrigin MatrixOne 矩阵起源 超融合数据库

OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?_生成式 AI_华卫_InfoQ精选文章