如何 0 成本启动全员 AI 技能提升?戳> 了解详情
写点什么

智谱发布自主 Agent 全家桶,目标:让打工人实现“光说不干”!

  • 2024-11-29
    北京
  • 本文字数:1790 字

    阅读完需:约 6 分钟

大小:891.68K时长:05:04
智谱发布自主Agent全家桶,目标:让打工人实现“光说不干”!

整理 |华卫

 

“来自 AI 的微信红包已派发,请查收!”

 

在今天的智谱 OpenDay 现场,智谱 CEO 张鹏只向 AutoGLM 下达了一个简单语音指令,就成功执行了这个操作。

 

现场,智谱带来了多个通过 Agent 操作手机、电脑,甚至手机电脑联动的新进展:

  • AutoGLM 可以自主执行超过 50 步的长步骤操作,也可以跨 app 执行任务

  • AutoGLM 开启“全自动”上网新体验,支持等数十个网站的无人驾驶

  • 像人一样操作计算机的 GLM-PC 启动内测,基于视觉多模态模型实现通用 Agent 的技术探索

 

此外,张鹏还展示了通过手机给 GLM-PC 发消息,让 GLM-PC 自动进行发送文件等电脑操作的过程。据介绍,GLM-PC 还可以在开机状态下执行定时任务,比如定时发日报等。

 

原本对于机器而言非常复杂的操作,现在可以由智谱产品化的 Agent 完成,大模型正在从只有对话功能的 Chatbot 走向能够进行实际物理操作的自主 Agent。张鹏表示,“Agent 将极大地提升 L3 使用工具能力,同时开启对 L4 自我学习能力的探索。”

 

AutoGLM 新升级:挑战更复杂

 

在张鹏看来,Agent 可以看作是大模型通用操作系统 LLM-OS 的雏形。

 

“现阶段,AutoGLM 相当于在人与应用之间添加一个执行的调度层,很大程度上改变人机的交互形式。更重要的是,我们看到了 LLM-OS 的可能,基于大模型智能能力(从 L1 到 L4 乃至更高),未来有机会实现原生的人机交互。将人机交互范式带向新的阶段。”

 

据张鹏介绍,新升级的 AutoGLM 可以挑战完成以下复杂任务:

 

1. 超长任务:理解超长指令,执行超长任务。例如,在采购火锅食材的例子中,AutoGLM 自主执行了 54 步无打断操作。并且,在这种多步、循环任务中,AutoGLM 的速度表现超过人手动操作。

2. 跨 app :AutoGLM 支持跨 App 来执行任务。用户可以习惯于 AI 自动处理,而不是在多个 APP 间来回切换。由于目前 AutoGLM 形态更像是用户和应用间的 APP 执行的调度层,因此跨 App 能力是里面非常关键的一步。

3. 短口令:AutoGLM 能够支持长任务的自定义短语。

4. 随便模式:AutoGLM 可以主动帮用户做出决策,带来抽盲盒式的惊喜。

 

支持核心场景和核心应用的 AutoGLM 标品 API,会在两周内上线到智谱 maas 开放平台(bigmodel.cn)试用。同时,AutoGLM 启动大规模内测,并将尽快上线成为面向 C 端用户的产品。(autoglm-安卓:https://agent.aminer.cn/

 

Web 端也将开启“全自动”上网新体验,即日起智谱清言插件上线 AutoGLM 功能,支持搜索、微博、知乎、Github 等数十个网站的“无人驾驶”。(清言插件:https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday

 

GLM-PC :面向“无人驾驶”PC 的技术探索

 

不只是基于手机和浏览器,智谱还带来了基于 PC 的自主 Agent。

 

据其介绍,GLM-PC 的技术路线是一种拟人的多模态的感知,基于智谱自研的 UI Agent 视觉基座模型 CogAgent。模型仅需视觉截图作为输入,无需依赖 HTML 等语言表征,可应用至任意图形用户界面,具备极强的跨平台、跨系统泛化能力。

 

glm-pc:https://www.wjx.top/vm/mOs9cHw.aspx

 

简单来说,GLM-PC 用电脑的方式几乎完全和人一样。人在电脑上办公的过程是,用眼看图形、图像、文字,然后用脑规划,再用手执行单击双击、滚动、输入、悬浮等操作。GLM-PC 同样也是把用电脑的动作拆解如上,最终准确输出具体动作(精确至坐标)。

 

也正因如此,理论上只要是为人类设计的应用,在 GLM-PC 学习之后它都能够执行。这是一种系统级、跨平台的能力,不依赖于 HTML、API,而且具备更高的能力上限。

 

目前开放第一阶段的内测场景,包括:

1. 会议替身:帮用户预定和参与会议,发送会议总结。

2. 文档处理:支持文档下载、文档发送、理解和总结文档。

3. 网页搜索与总结:在指定平台(如微信公众号、知乎、小红书等)搜索指定关键词,完成阅读、总结。

4. 远程和定时操作:远程手机发指令,GLM-PC 可以自主完成电脑操作;设定一个未来时间,在开机状态下定时执行任务。

5. 隐形屏幕:在用户工作时,GLM-PC 可以在隐形屏幕上自主完成工作,解放屏幕使用权。

 

不过,GLM-PC 在当前版本下,用户仍需要输入非常精准的指令。张鹏解释道,由于 PC 的复杂程度,以及大家在 PC 完成的几乎都是复杂任务,今天大模型的能力距离真正代替办公还有一定距离。

 

但张鹏表示,未来 GLM 团队将继续加速 Agent 模型产品的研发,期待着一句话操作电脑和手机的范式尽快到来。到那时,Agent 或许真有望帮助打工人实现“光说不干”的一天。

 

2024-11-29 23:2410780

评论

发布
暂无评论
发现更多内容

Stack 顿悟三部曲(2):穿越虚拟内存的迷雾

蓬蒿

线程 cpu 堆栈 进程

造孽啊!阿里内部的神级项目和JDK源码阅读指南竟惨遭GitHub开源

Java架构追梦

Java 程序员 后端开发

CRUD勿进,全身心投入才能读懂腾讯P8亲码的“Java微服务

爱好编程进阶

Java 程序员 后端开发

Go流程控制——条件语句

爱好编程进阶

Java 程序员 后端开发

惨遭面试官吊打高并发系统设计,回来学习2400小时后成功复仇

Java架构追梦

Java 后端开发 程序员面试

CTO 说了,用错 @Autowired 和

爱好编程进阶

Java 程序员 后端开发

GroupingComparator分组

爱好编程进阶

Java 程序员 后端开发

IDEA的Docker插件实战(Dockerfile篇)

爱好编程进阶

Java 程序员 后端开发

2022金蝶云苍穹峰会抢先看

金蝶云·苍穹

苍穹峰会 苍穹5.0 人力云

OneFlow如何做静态图的算子对齐任务

OneFlow

人工智能 graph 自动测试 算子对齐

Alibaba最新出版的JDK源码剖析手册(究极奥义版)开源

Java架构追梦

jdk java面试 后端开发

EL和JSTL基本使用

爱好编程进阶

Java 程序员 后端开发

Stack 顿悟三部曲(3):溯源 goroutine 堆栈

蓬蒿

golang 堆栈 协程 stack goroutine

Java 生成随机数的 5 种方式,你知道几种?

爱好编程进阶

Java 程序员 后端开发

ETL自动化运维调度管理工具 TASKCTL 流程文件系统

敏捷调度TASKCTL

程序员 DevOps 运维 ETL 大数据运维

中小型企业团队的CRM系统最佳实践

低代码小观

低代码 CRM 客户关系管理 CRM系统 客户关系管理系统

Day200

爱好编程进阶

Java 程序员 后端开发

java 通过 SmbFile 类操作共享文件夹

爱好编程进阶

程序员 后端开发

AliIAC 智能音频编解码器:在有限带宽条件下带来更高质量的音频通话体验

阿里云CloudImagine

语音 音频 视频云 音频编码器

真可笑!拿着这份JVM学习笔记学了2个月,就想着出去跳槽涨10k

Java架构追梦

Java 程序员 后端开发

【INFOCOM 2022】支持任意网络拓扑的同步流水线并行训练算法,有效减少大规模神经网络的训练时间

阿里云大数据AI技术

神经网络 机器学习 算法 并行训练算法

Java 类型信息详解和反射机制

爱好编程进阶

Java 程序员 后端开发

刷了三个月leetcode算法,顺利拿下百度、阿里等大厂的offer

Java架构追梦

Java 后端开发 数据与算法

GNN在下拉推荐的应用

爱好编程进阶

Java 程序员 后端开发

4月份,我月更了 25 篇文章,撸了 4w 多字

杨成功

程序员 数据结构 前端

java poi 读取Excel中的手机号或电话号码,手机号变成1

爱好编程进阶

程序员 后端开发

Java StringBuffer 动态字符串

爱好编程进阶

程序员 后端开发

2022年4月国产数据库大事记

墨天轮

数据库 opengauss TiDB 国产数据库 达梦

FastDFS 和nginx整合

爱好编程进阶

Java 程序员 后端开发

上市商业银行手机银行场景建设专题分析

易观分析

商业银行 手机银行

Java面试前的敲门砖:多线程+微服务spring源码+Redis+docker+Git

Java架构追梦

Java 后端开发 程序员面试

智谱发布自主Agent全家桶,目标:让打工人实现“光说不干”!_生成式 AI_华卫_InfoQ精选文章