写点什么

不怪奥特曼慌!最大对手 Anthropic 抢先让 AI 接管人类电脑,网友怒赞并喊话 OpenAI:看看人家

  • 2024-10-24
    北京
  • 本文字数:3501 字

    阅读完需:约 11 分钟

大小:1.61M时长:09:23
不怪奥特曼慌!最大对手Anthropic抢先让AI 接管人类电脑,网友怒赞并喊话OpenAI:看看人家

整理 | 华卫、核子可乐


昨日,由多位前 OpenAI 员工建立的 AI 初创公司 Anthropic 对外推出了一项引人注目的新功能,名为“计算机使用”。这项功能让大模型理解一切桌面应用程序并与之交互,包括模拟按键、点击按钮、鼠标手势和输入文本等,在计算机操作能力上已经与人类基本相当。


换句话说,Anthropic 不是为单个任务开发定制工具,而是教授模型基本计算机技能,使其能够自然地使用与人们相同的日常软件和工具。


升级后的 Claude 3.5 Sonnet 是第一个在公开测试版中提供“计算机使用”功能的模型,此番 Anthropic 对这套模型进行了全面改进,特别是在智能体编码与工具使用等任务场景下表现出色。AI 驱动图像初创公司 EverAI 的创始人 Pietro Schirano 发帖表示,Claude 3.5 Sonnet 是“世界上最好的编码模型,将它纳入日常工作流程,彻底改变了我的生活体验。”


与此同时,Anthropic 还发布了全新的 Claude 3.5 Haiku,成本和速度向最小体量系统看齐,但能够重现该公司最大体量系统的性能。据介绍,Claude 3.5 Haiku 的价格将与 Claude 3 Haiku 保持一致,但在多项重要基准测试当中都有着超越更大体量 Claude 3 Opus 模型的性能表现,其中包括一项由模型完成客服任务的测试。



Anthropic 方面表示,Claude 3.5 Haiku“在编码任务领域表现特别强劲”,同时也“非常适合支持面向用户的产品、特定子智能体任务,以及根据大量数据(包括购买历史、定价或者库存记录等)生成个性化体验等。”


现在,开发者们可以通过 Anthropic 的 API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 平台体验升级后的 Claude 3.5 Sonnet 。而 Claude 3.5 Haiku 将于本月晚些时候提供,最初作为纯文本模型,随后将提供图像输入。


当 Claude 学会用电脑


在 Anthropic 官方发布的视频中,该公司研究人员展示了新 Claude 模型如何通过计算机使用功能从不同来源处收集信息,进而填写表格、开发网站甚至是策划徒步旅行。


有网友表示为 OpenAI 捏了把汗。当然,这项新功能也有局限性。一篇关于该工具的开发博文就列举了一个测试失败的案例:它在执行编码任务的过程中半途放弃,转而开始“浏览黄石国家公园的照片”——开玩笑讲,这可能是 AI 机器人做过的最像人类的事情之一,甚至学会了拖延症。


在一项旨在测试 AI 机器人帮助完成机票操作任务(例如修改出行航班)的能力评估当中,新版 3.5 Sonnet 只成功完成了不到半数任务。而在另一项涉及申请退货等操作任务的测试中,3.5 Sonnet 的失败率同样接近三分之一。


对此,Anthropic 方面承认,升级之后的 3.5 Sonnet 在滚动和缩放等常见操作方面仍存在困难,它需要通过快速连续截屏来实现操作,而无法处理实时视频流,因此可能会错过短暂的通知或者其他变更。Anthropic 在博文中写道,“Claude 模型的’计算机使用’功能用起来仍然比较麻烦而且容易出错。我们鼓励开发人员从风险较低的任务开始进行探索。”


Anthropic 方面称,这项计算机使用功能仍处于实验阶段,他们正在对“计算机使用”功能进行测试,排查可能出现的问题,同时与开发人员合作改进功能以寻求积极的技术应用方式。目前,参与这项计算机使用功能试点的企业客户包括 Asana、Canva、Cognition、DoorDash、Replit 以及 The Browser Company。


据悉,软件开发平台 Replit 已经使用全新 3.5 Sonnet 模型的早期版本来创建“自主验证器”,用以在应用程序开发过程中对项目进行评估。在另一边,Canva 公司则表示正在探索利用这套新模型支持设计和编辑流程的可行方法。


会自我纠正并重试任务,比微软 UFO 更像人类?


计算机使用似乎正成为 AI 开发的下一个前沿领域,即 AI 模型不必通过定制工具进行交互,而是能够按照指示使用基本上任何软件。


最近被亚马逊收购的 Adept 一直在训练模型浏览网站并实现软件导航,Twin Labs 正使用现成模型(包括 OpenAI 的 GPT-4o)来自动执行桌面操作流程,消费电子初创公司 Rabbit 在开发一款能够执行在线购买电影票等操作的 Web 版智能体。有消息称,OpenAI 等人工智能厂商也一直在开发类似的工具,但目前尚未公开发布。


今年 2 月,微软基于 OpenAI 的 GPT-4V 图像识别模型,专为 Windows 操作系统交互设计的智能体框架 UFO(UI-Focused)更与其有“异曲同工”之妙。UFO 能够通过对图形用户界面(GUI)和 Windows 应用程序的控制信息进行观察和分析,在单个或跨多个应用程序内无缝导航和操作,满足用户的复杂任务请求。也就是说,有了 UFO,用户通过一句话就可以操作应用界面,比如删除 PPT 上的所有注释、设计 PPT 格式、总结会议纪要并发送邮件等。


那么,Anthropic 的方案与其他操控应用的 AI 智能体有何不同?


工作原理上,据 Anthropic 介绍,其“计算机使用”功能虽然同样需观看和解读屏幕截图,但实现操作是通过训练 Claude 模型准确计算像素。具体来讲,当开发人员要求 Claude 使用计算机软件并授予其必要的访问权限时,Claude 模型会查看用户界面中的屏幕截图,而后计算出需要垂直或者水平移动多少像素才能将光标移动至正确位置。如果没有这种能力,模型将很难对鼠标进行准确操作。



而微软 UFO 是通过应用程序选择代理 (AppAgent) 和动作选择代理 (ActAgent) 两个 Agent 来实现自动化工作。AppAgent 负责通过分析用户请求和桌面屏幕截图,选择合适的应用程序,并制定全局计划来完成任务。而 ActAgent 则负责观察当前应用程序窗口的截图,从可用控制中选取合适的控制并执行动作,最后由控制交互模块负责将 ActAgent 选择的动作转换为对应用程序的控制操作。


此外,Anthropic 方面宣称,尽管没有接受过明确训练,但升级之后的 Claude 3.5 Sonnet 还会在遇到障碍时自我纠正并重试任务,而且正向着执行包含数十甚至数百个步骤的复杂任务目标推进。并且,Anthropic 的“计算机使用”功能还涉及到模型推理,像如何以及何时执行特定操作以响应屏幕上内容等。


AI 操控电脑存在风险?Anthropic:注意数据隔离


自动化控制应用工具这条赛道已经掀起新一轮 AI 竞赛浪潮,如果这些工具按预期发展成熟,很可能在几年之后为厂商带来大量收入。Anthropic 方面也一直在向投资者传达这一信息,即其打造的 AI 工具能够以比人类更高效且更经济的方式处理大部分办公室工作。


不过,此类工具也引发了一些争论。首先是担忧“它们只是一种能让人们工作更轻松的工具”,还是“会像一颗炸弹那样让各行各业的人们失去生存空间”。另一方面,尽管 Claude 3.5 Sonnet 模型在性能方面仍有不少短板,但其是否已经具备了造成危害的基本能力?


最近一项研究发现,无法使用桌面应用程序的现有模型(如 OpenAI 的 GPT-4o)在面对越狱技术的“攻击”时,确实愿意参与到有害的“多步骤智能体操作”中来,如从暗网上的卖家手中订购假护照。研究人员表示,即使是那些受到过滤器和护栏机制保护的模型,越狱行为同样在实施有害操作方面具有很高的成功率。


可以想象,具有桌面访问权限的模型很可能会造成更大的破坏,如利用应用程序中的漏洞泄露个人信息(或者以纯文本形式存储下聊天记录)。而除了将软件作为操作杠杆之外,模型的网络浏览与应用程序连接更可能向恶意越狱者敞开大门。


Anthropic 也并不否认新发布的 3.5 Sonnet 存在风险,但辩称,相较于潜在风险,该模型在受众中的实际使用方式明显利大于弊。该公司在博文中提到,“我们认为,让目前这套功能较为有限、相对更加安全的模型早点访问计算机可能更好。这意味着我们可以开始观察并学习这套比较初级的模型会引发哪些潜在问题,同时逐步为其建立起计算机使用功能与安全缓解措施。”


Anthropic 方面还表示,他们开发了分类器以“敦促”3.5 Sonnet 远离已知的高风险行为,例如在社交媒体上发帖、创建账户以及在政府网站上执行交互操作。作为一项安全预防措施,该公司将把“计算机使用”捕捉到的任何屏幕截图至少保留 30 天。但不会利用用户的屏幕截图和提示词训练新的 3.5 Sonnet 模型,同时阻止模型在训练期间访问网络。


此外,Anthropic 公司强调,“选择使用 Claude 操作计算机的用户也应当采取相应预防措施,从而尽量减少此类风险,包括将 Claude 与电脑上高度敏感的数据隔离开来。”


有网友这样评价道,“两年前的 Anthropic:我们需要阻止 AGI 摧毁世界。现在的 Anthropic:如果我们让 AI 自由使用电脑并训练它患有多动症会怎么样?”


参考链接:


https://www.inc.com/ben-sherry/anthropic-just-released-its-most-advanced-small-ai-model-yet/90992933


https://arstechnica.com/ai/2024/10/anthropic-publicly-releases-ai-tool-that-can-take-over-the-users-mouse-cursor/


https://www.anthropic.com/news/3-5-models-and-computer-use


https://techcrunch.com/2024/10/22/anthropics-new-ai-can-control-your-pc/

2024-10-24 11:089011

评论

发布
暂无评论
发现更多内容

LLaMA 2语言大模型的微调策略:LoRA与全参数选择

百度开发者中心

人工智能 大模型 llama2

出海不出局 | 小游戏引爆高线市场,新竞争态势下的应用出海攻略

融云 RongCloud

利用jd.item_get API获取商品信息,打造可读性强的商品介绍

技术冰糖葫芦

API 接口 API 文档 pinduoduo API

金三银四 面试准备 数据结构面试题,编程与算法经典面试题

测试人

面试 软件测试 求职

认识一下JavaScrip中的元编程

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号2024年4月PK榜

软件测试学习笔记丨Selenium网页frame

测试人

软件测试

MES管理系统与其他系统的集成

万界星空科技

数字化转型 系统集成 mes 万界星空科技

驼峰与下划线在python中转化

麦兜

卡片式笔记系统BYEAP介绍

zhumingwu

信创国产化替换势在必行,“重复造车轮”应避免

FinFish

国产化 小程序容器 信创化软件 信创化

世界读书日 | 开发者必读书单重磅来袭,华为云DTSE专家天团力荐

华为云开发者联盟

华为云 华为云开发者联盟 企业号2024年4月PK榜 世界读书日 开发者必读书单

文心中国行走进成都!4月24日一起把握大模型时代的产业新机遇

飞桨PaddlePaddle

百度 BAIDU 百度飞桨 文心大模型 文心中国行

lerna-lite 轻量化 monorepo 管理利器

小鑫同学

仓储管理解决方案:混合低代码与定制开发,实现灵活性与效率的完美结合

天津汇柏科技有限公司

低代码开发 软件开发定制 仓储系统

你的debug包在Android 14变卡了吗?|得物技术

得物技术

android 性能优化 debug 堆栈 企业号 4 月 PK 榜

GLM国产大模型训练加速:高效性能与成本优化的实践

百度开发者中心

人工智能 深度学习 大模型

如何通过二维码追踪物品流转情况?添加这个组件即可

草料二维码

二维码 草料二维码

HashData获得华为鲲鹏Validated认证 信创版图持续壮大

酷克数据HashData

Prompt工程师压箱底绝活——Prompt的基本组成部分、格式化输出与应用构建

百度Geek说

企业号 4 月 PK 榜 Prompt

面试不会算法和数据结构,经典面试题讲解来了!

霍格沃兹测试开发学社

第六届科技无障碍发展大会(2024TADC)

信息无障碍研究会

Apifox 最新功能更新:OAuth 2.0 鉴权、多分支Mock及更多

Apifox

程序员 前端 后端 Apifox

MES系统解决方案,MES系统主要能解决什么问题

万界星空科技

数字化 生产管理系统 mes 万界星空科技 车间管理

Stable Diffusion中的常用术语解析

程序那些事

人工智能 程序那些事 openai

不怪奥特曼慌!最大对手Anthropic抢先让AI 接管人类电脑,网友怒赞并喊话OpenAI:看看人家_生成式 AI_华卫_InfoQ精选文章