智能体刷屏的背后,是 AI 应用拐点的来临?AICon 北京站议程重磅公布,50+ 硬核分享不容错过 了解详情
写点什么

微软推出 Magentic-One,一个通用的多智能体代理系统

作者:Daniel Dominguez

  • 2024-12-24
    北京
  • 本文字数:1286 字

    阅读完需:约 4 分钟

微软推出 Magentic-One,一个通用的多智能体代理系统

微软宣布推出 Magentic-One,这是一个新的通用多智能体代理系统,旨在处理涉及 Web 和基于文件环境的开放式任务。该系统旨在协助处理跨不同领域的复杂、多步骤任务,以提高软件开发、数据分析和网页导航等活动的效率。


Magentic-One 采用由协调器(Orchestrator)智能体代理领导的多智能体代理架构,协调四个专门的智能体代理:WebSurfer,处理基于浏览器的任务,如导航网站和与在线内容交互;FileSurfer,管理与文件相关的操作,包括读取文档和导航目录;Coder,编写和分析代码以创建解决方案;以及 ComputerTerminal,运行代码并执行系统级操作。


该系统采用模块化设计原则,使智能体代理能够独立运行并适应新任务,而无需对系统进行重大的更改。Magentic-One 基于 Microsoft AutoGen(一个用于开发多智能体代理系统的开源框架)构建,与模型无关,并且与包括 GPT-4o 在内的不同大语言模型(LLM)兼容。


Magentic-One 使用 AutoGenBench(一种用于智能体代理系统评估的工具)在 GAIA、AssistantBench 和 WebArena 等基准上进行了测试。结果显示,与其他最先进的解决方案相比,该系统的准确性具有相当的竞争力,证明了该系统管理复杂工作流程方面的能力。


微软强调了与智能体代理系统相关的潜在风险,例如意外操作和系统滥用。在开发过程中,发现了诸如重复登录失败和尝试寻求外部人工协助等情况。为了降低此类风险,该系统包括了安全部署指南、红队演习和人工监督建议。


Magentic-One 的发布引发了人工智能社区的兴趣。大语言模型(LLM)专家 Elvis Saravia 在 X 上评论道:


虽然现在还为时尚早,但这种建立通用智能体代理系统的新趋势值得关注。此外,其他当前基于 LLM 的应用程序,如 RAG,也将受益于这种建立在多个专用智能体代理之上的系统。


而用户 Alexian_Theory 在 reddit 上分享道:


网页浏览的方法很有趣。它会对正在运行的无头浏览器进行快照,将图像传递给支持视觉的 LLM,然后决定下一步应该如何进行以完成任务。


Magentic-One 及其评估工具 AutoGenBench 的代码现已作为开源资源提供。微软鼓励与研究人员和开发人员合作,改进智能体代理人工智能系统,重点关注安全性、操作的可逆性,并最大限度地降低实际应用中的风险。相关的技术细节和实现资源,请参阅官方文档和 GitHub 存储库。


多智能体代理编排系统的开发正成为整个人工智能行业的核心焦点。几家大型的公司都在通过自己的方法来编排专业的智能体代理,为这一趋势做出贡献。AWS 推出了 Multi-Agent Orchestrator,IBM 正在开发 Bee Agent,OpenAI 开发了 Swarm。这些系统中的每一个都旨在编排多个智能体代理,以有效地解决复杂的多步骤任务,这表明人们越来越重视模块化和协作式人工智能架构。

作者介绍


Daniel Dominguez 是 AWS 合作伙伴网络公司 SamXLabs 的执行合伙人。他在初创公司和财富 500 强公司的软件产品开发方面拥有超过 12 年的经验。Daniel 拥有华盛顿大学的机器学习专业学位。他热衷于利用人工智能和云计算来创建创新的解决方案。作为机器学习领域的 AWS 社区建设者,Daniel 致力于分享知识并推动软件产品的创新。


查看原文链接:

https://www.infoq.com/news/2024/11/microsoft-magentic-one/

2024-12-24 09:176054

评论 1 条评论

发布
用户头像
这是infoq.com上11月份的一篇文章
2024-12-24 09:43 · 北京
回复
没有更多了
发现更多内容

软件测试/测试开发/全日制 | Python全栈开发中的前端工具与构建流程

测吧(北京)科技有限公司

测试

软件测试/人工智能/全日制 | Python全栈开发:理解HTTPS加密机制与安全传输

测吧(北京)科技有限公司

测试

效果图渲染角度哪什么小技巧?10个效果图渲染技巧

Renderbus瑞云渲染农场

云渲染 渲染农场 瑞云渲染 Renderbus云渲染农场 效果图渲染

云渲染电脑可以关吗?瑞云渲染客户端能断开网络吗?

Renderbus瑞云渲染农场

云渲染 渲染农场 瑞云渲染

深入理解经典红黑树 | 京东物流技术团队

京东科技开发者

想要了解华为IPD,先要了解需求如何管理!

华为云PaaS服务小智

需求管理 软件开发 华为云

CSIG青年科学家会议圆满举行,合合信息打造智能文档处理融合研究新范式

合合技术团队

科技 大模型 合合信息 GPT-4

软件测试/测试开发/全日制 | 从HTML到React:Python全栈开发中的前端框架应用

测吧(北京)科技有限公司

测试

软件测试/测试开发/全日制 | 实现实时通信:Python全栈开发中的WebSocket实践

测吧(北京)科技有限公司

测试

制造业企业使用SD-WAN的意义

Ogcloud

网络 SD-WAN 组网 组网网络

强大防护:如何选择最佳美国高防服务器租用服务

一只扑棱蛾子

美国服务器 美国高防服务器

软件测试/测试开发/全日制 | Python全栈开发:利用Docker实现应用容器化

测吧(北京)科技有限公司

测试

多策略深度智能分货拣货,助力快消品企业提升核心竞争力

用友BIP

软件测试/测试开发/全日制 | 前后端数据交互与Fetch API应用

测吧(北京)科技有限公司

测试

海外网络加速:突破地域限制,畅联全球

Ogcloud

网络 网络加速 vpn 网络VPN

免费部署试用的低代码开发工具分享(100%源码)

互联网工科生

低代码 JNPF

软件测试开发/全日制丨面试题:中间件-淘汰缓存还是更新缓存

测试人

redis 软件测试 面试题 中间件 测试开发

React Native 打包 App 发布 iOS 及加固混淆过程

CloudXR在农业领域的用例表现

3DCAT实时渲染

CLOUDXR 云化XR

如何将支持标准可观测性协议的中间件快速接入观测

观测云

可观测性 HBase

软件测试/测试开发/全日制 | Python全栈开发中的消息队列应用

测吧(北京)科技有限公司

测试

圣诞节来临,如何用海外云手机给亚马逊店铺引流?

Ogcloud

云服务 手机云服务 云服务商

微软推出 Magentic-One,一个通用的多智能体代理系统_微软_InfoQ精选文章