写点什么

AI Agent 在微软的 Magentic Marketplace 模拟中未能通过操纵测试

作者:Vinod Goje

  • 2025-11-25
    北京
  • 本文字数:2003 字

    阅读完需:约 7 分钟

大小:1008.85K时长:05:44
AI Agent在微软的Magentic Marketplace模拟中未能通过操纵测试

微软的研究人员与亚利桑那州立大学合作,推出了 Magenti Marketplace,这是一个开源的模拟环境,旨在研究基于大型语言模型(LLM)的 Agent 在多agent经济系统中的行为。随着自主 agent 在软件开发、客户服务和战略谈判中的能力增强,这个平台满足了人工智能研究中日益增长的需求,引发了关于这些 agent 在市场生态系统中运作时会发生何种问题的讨论,在这些生态系统中它们可以搜索服务、协商条款并完成交易,而无需人类监督。

 

该环境重现了完整的交易生命周期,从搜索、匹配一直到谈判和最终的交易,为研究人员提供了一个受控的环境,以在现实的市场条件下检查 agent 的行为,并且能够为这些系统在现实世界经济场景中真正运作之前评估潜在的风险。



图片来源:Magentic Marketplace 架构

 

该平台的架构基于三个旨在平衡市场现实与实验控制的设计决策。研究团队使用HTTP/REST客户端-服务器模型构建了系统,其中 agent 作为独立的客户端,而市场充当中央服务器。这反映了现有的商业平台,如 Shopify、亚马逊和 eBay,以及新兴的 agent 协议标准,包括模型上下文协议(Model Context Protocol,MCP)Agent-to-Agent(A2A)协议。Agent 通过动作-观察循环运行,借助 API 调用在市场中采取行动,并接收异步响应以观察结果,从而在客户和商业 agent 角色之间创造了清晰的分离。

 

团队通过实现他们的最小三端点(minimal three-endpoint)协议,解决了市场设计中的核心问题。完整的经济交易需要包括搜索、沟通、谈判和支付在内的众多功能,但增加许多端点会降低实验的灵活性。研究人员通过创建三个端点解决了这个问题:注册、协议发现和动作执行。这种方法将复杂性推入到动作空间本身中,而不是扩散端点。Agent 通过协议发现端点动态发现可用的动作,这允许研究人员在不修改现有 agent 代码的情况下添加新的市场功能。

 

在动作端点内,团队设计了支持完整交易生命周期的特定消息类型,包括用于服务发现的搜索消息、用于双方协商的通信消息、在 agent 之间构建报价的订单提案,以及完成交易的支付消息。这种动作协议使得双边市场结构能够在真实市场中发生的所有经济活动阶段发挥作用。

 

研究人员使用完全合成的数据搭建他们的实验,以确保跨测试运行的可重复性。市场模拟的早期发现揭示了团队所说的 agent 行为中的选择悖论(Paradox of Choice)效应。虽然在理论上自主agent可以评估的选项比人类多得多,但实验表明,为 agent 提供更大的选择集并不会导致对可用选项的更彻底探索。研究团队建议,这种限制可能源于长上下文理解的挑战,agent 在技术上能够访问这些选项时,难以有效地处理和推断关于广泛选项列表中的问题。这一发现表明,简单地增加可供 agent 选择的数量并不能保证在市场场景中做出更好的决策结果。

 

研究团队通过在市场环境中实现六种不同的攻击策略来测试 agent 对操纵的脆弱性。这些策略从微妙的心理战术到激进的技术漏洞不等。这种以权威为基础的方法使用了虚假的证书,包括“米其林指南推荐(Michelin Guide featured)”和“詹姆斯比尔德奖提名(James Beard Award nominated)”,以及伪造的证书。社会证明策略采用了诸如“加入 5 万多名满意顾客”或“墨西哥餐厅排名第一”之类的声明,并结合了人为生成的评论。损失规避策略依赖于基于恐惧的“食物中毒风险”和“竞争餐厅污染问题”的警告。技术攻击包括基本的提示词注入,以企图推翻 agent 的指令,以及使用紧急语言和捏造竞争对手丑闻的强提示词注入攻击。

 

结果显示,不同 LLM 模型在抵抗力方面存在显著的差异。Sonnet-4对所有攻击策略都表现出抵抗力,没有任何操纵策略能够影响客户选择或支付决策。Gemini-2.5-Flash表现出的抵抗力比较一般,在强大的提示词注入攻击下显示出脆弱性,其中对未操纵 agent 的均值支付受到了影响。GPT-4oGPTOSS-20bQwen3-4b对提示词注入表现出了高度的脆弱性,在这些攻击条件下,所有支付都被重定向到操纵 agent。较小的模型 GPTOSS-20 和 Qwen3-4b-2507 甚至对传统心理操纵也表现出脆弱性,权威诉求和社会证明策略成功地增加了对恶意 agent 的支付,显示出对基本说服技术的易感性,这超出了技术方面的漏洞。

 

TechRadar在 X 上指出指出

微软的 Magentic Marketplace 显示,AI 工具在复杂的多 agent 模拟中仍然不能可靠地独立行动,

 

这反映了在没有额外保障措施的情况下,在现实世界经济系统中部署自主 agent 的广泛担忧。

 

Windows Central这样观察到,

在有广泛选择的任务分配中,AI 模型会变得不知所措和犹豫不决。

 

Wes Roth在 X 上指出

与过去的有限实验不同,这个环境模拟了具有开放式互动的动态、多 agent 市场,他补充说,“研究结果表明,即使是顶级模型在大规模场景中也存在困难。

 

Magentic Marketplace 作为一个开源项目,对研究 agent 市场行为感兴趣的研究人员和开发人员可以进行使用。代码、数据集和实验模板可以通过GitHubAzure AI Foundry Labs 访问。

 

查看英文原文:AI Agents Fail Manipulation Tests in Microsoft's Magentic Marketplace Simulation

2025-11-25 09:422545

评论

发布
暂无评论

Notion免费搭建个人网站,使用Notion又多了一个理由

彭宏豪95

GitHub Notion 写作 博客 4月日更

梦里花落知多少,网络抖动逃不了

阿里云基础软件团队

英特尔陈葆立:至强傲腾强强联手,实现1+1>2

E科讯

火爆全网!万字精华总结“银四Java复习笔记”(共计22个技术专题)

比伯

Java 架构 面试 程序人生 计算机

一位五年Java开发经验程序员的拼多多/蚂蚁金服/百度面经分享!

Java架构之路

Java 程序员 架构 面试 编程语言

这里有一份2021年Java面试必备的《并发编程》学习资料,你要还是不要?

Java架构之路

Java 程序员 架构 面试 编程语言

全面提升鸡群产能!Newcher智慧养鸡场解决方案剖析

Rancher

【软件推荐】TOP级YouTube视频下载工具2021

科技猫

软件 分享 工具软件 视频 youtube

Fl Studio真的不如Cubase或者Logic Pro等电音软件专业吗?

奈奈的杂社

编曲 电音 电音制作 中国电音 编曲宿主

新思科技成为CVE编号授权机构 向公众发布更准确、实时的漏洞信息

InfoQ_434670063458

新思科技 CVE 软件质量与安全

腾讯专家连夜肛出来17大专题30W字的Java面试手册!

码农之家

Java 编程 程序员 互联网 面试

SparkStreaming流计算实战

小舰

4月日更

阿里P9这几个提高代码运行效率的小技巧我一直在用

Java架构师迁哥

用泡妞的逻辑理解23种常用设计模式?渣男直呼内行

北游学Java

Java 设计模式

Spark中的累加器和广播变量

五分钟学大数据

spark 4月日更

一份秀出新天际的SpringCloudAlibaba笔记,把微服务玩的出神入化

Java 编程 程序员 架构 微服务

AI 事件驱动场景 Serverless 实践

阿里巴巴云原生

人工智能 Serverless 容器 云原生 消息中间件

CIAM的7个基本原则

龙归科技

安全性 用户 业务增长

ARMv9刷屏——号称十年最大变革,Realm机密计算技术有什么亮点?

阿里云基础软件团队

类加载器和双亲委派模型

hepingfly【gzh:和平本记】

Java ClassLoader 类加载器 双亲委派模型

Github限时开放!阿里内部强推的《微服务容器化参考指南》简直太牛了!

Java架构之路

Java 程序员 架构 面试 编程语言

大厂Offer收割机:Netty处理写事件之连环四问,你能抗住吗?

Java架构师迁哥

你可能不是真的懂let和const

前端树洞

JavaScript ecmascript 大前端 ES6 4月日更

通俗讲解分布式锁,这次你一定能懂!

Java架构师迁哥

嘿,朋友!和你讲讲这15年来我的成长吧

亚马逊云科技 (Amazon Web Services)

平面设计之PS(中)

空城机

PhotoShop ps 4月日更

NoSQL数据库兄弟会

大数据技术指南

sql 4月日更

【LeetCode】寻找旋转排序数组中的最小值 IIJava题解

Albert

算法 LeetCode 4月日更

19张图带你梳理SpringCloud体系中的重要技术点!

Java架构师迁哥

一周信创舆情观察(3.29~4.4)

统小信uos

AI Agent在微软的Magentic Marketplace模拟中未能通过操纵测试_AI&大模型_InfoQ精选文章