AI Agent在微软的Magentic Marketplace模拟中未能通过操纵测试

微软的研究人员与亚利桑那州立大学合作，推出了 Magenti Marketplace，这是一个开源的模拟环境，旨在研究基于大型语言模型（LLM）的 Agent 在多agent经济系统中的行为。随着自主 agent 在软件开发、客户服务和战略谈判中的能力增强，这个平台满足了人工智能研究中日益增长的需求，引发了关于这些 agent 在市场生态系统中运作时会发生何种问题的讨论，在这些生态系统中它们可以搜索服务、协商条款并完成交易，而无需人类监督。

该环境重现了完整的交易生命周期，从搜索、匹配一直到谈判和最终的交易，为研究人员提供了一个受控的环境，以在现实的市场条件下检查 agent 的行为，并且能够为这些系统在现实世界经济场景中真正运作之前评估潜在的风险。

图片来源：Magentic Marketplace 架构

该平台的架构基于三个旨在平衡市场现实与实验控制的设计决策。研究团队使用HTTP/REST客户端-服务器模型构建了系统，其中 agent 作为独立的客户端，而市场充当中央服务器。这反映了现有的商业平台，如 Shopify、亚马逊和 eBay，以及新兴的 agent 协议标准，包括模型上下文协议（Model Context Protocol，MCP）和Agent-to-Agent（A2A）协议。Agent 通过动作-观察循环运行，借助 API 调用在市场中采取行动，并接收异步响应以观察结果，从而在客户和商业 agent 角色之间创造了清晰的分离。

团队通过实现他们的最小三端点（minimal three-endpoint）协议，解决了市场设计中的核心问题。完整的经济交易需要包括搜索、沟通、谈判和支付在内的众多功能，但增加许多端点会降低实验的灵活性。研究人员通过创建三个端点解决了这个问题：注册、协议发现和动作执行。这种方法将复杂性推入到动作空间本身中，而不是扩散端点。Agent 通过协议发现端点动态发现可用的动作，这允许研究人员在不修改现有 agent 代码的情况下添加新的市场功能。

在动作端点内，团队设计了支持完整交易生命周期的特定消息类型，包括用于服务发现的搜索消息、用于双方协商的通信消息、在 agent 之间构建报价的订单提案，以及完成交易的支付消息。这种动作协议使得双边市场结构能够在真实市场中发生的所有经济活动阶段发挥作用。

研究人员使用完全合成的数据搭建他们的实验，以确保跨测试运行的可重复性。市场模拟的早期发现揭示了团队所说的 agent 行为中的选择悖论（Paradox of Choice）效应。虽然在理论上自主agent可以评估的选项比人类多得多，但实验表明，为 agent 提供更大的选择集并不会导致对可用选项的更彻底探索。研究团队建议，这种限制可能源于长上下文理解的挑战，agent 在技术上能够访问这些选项时，难以有效地处理和推断关于广泛选项列表中的问题。这一发现表明，简单地增加可供 agent 选择的数量并不能保证在市场场景中做出更好的决策结果。

研究团队通过在市场环境中实现六种不同的攻击策略来测试 agent 对操纵的脆弱性。这些策略从微妙的心理战术到激进的技术漏洞不等。这种以权威为基础的方法使用了虚假的证书，包括“米其林指南推荐（Michelin Guide featured）”和“詹姆斯比尔德奖提名（James Beard Award nominated）”，以及伪造的证书。社会证明策略采用了诸如“加入 5 万多名满意顾客”或“墨西哥餐厅排名第一”之类的声明，并结合了人为生成的评论。损失规避策略依赖于基于恐惧的“食物中毒风险”和“竞争餐厅污染问题”的警告。技术攻击包括基本的提示词注入，以企图推翻 agent 的指令，以及使用紧急语言和捏造竞争对手丑闻的强提示词注入攻击。

结果显示，不同 LLM 模型在抵抗力方面存在显著的差异。Sonnet-4对所有攻击策略都表现出抵抗力，没有任何操纵策略能够影响客户选择或支付决策。Gemini-2.5-Flash表现出的抵抗力比较一般，在强大的提示词注入攻击下显示出脆弱性，其中对未操纵 agent 的均值支付受到了影响。GPT-4o、GPTOSS-20b和Qwen3-4b对提示词注入表现出了高度的脆弱性，在这些攻击条件下，所有支付都被重定向到操纵 agent。较小的模型 GPTOSS-20 和 Qwen3-4b-2507 甚至对传统心理操纵也表现出脆弱性，权威诉求和社会证明策略成功地增加了对恶意 agent 的支付，显示出对基本说服技术的易感性，这超出了技术方面的漏洞。

TechRadar在 X 上指出指出

微软的 Magentic Marketplace 显示，AI 工具在复杂的多 agent 模拟中仍然不能可靠地独立行动，

这反映了在没有额外保障措施的情况下，在现实世界经济系统中部署自主 agent 的广泛担忧。

Windows Central这样观察到，

在有广泛选择的任务分配中，AI 模型会变得不知所措和犹豫不决。

Wes Roth在 X 上指出，

与过去的有限实验不同，这个环境模拟了具有开放式互动的动态、多 agent 市场，他补充说，“研究结果表明，即使是顶级模型在大规模场景中也存在困难。

Magentic Marketplace 作为一个开源项目，对研究 agent 市场行为感兴趣的研究人员和开发人员可以进行使用。代码、数据集和实验模板可以通过GitHub和Azure AI Foundry Labs 访问。

查看英文原文：AI Agents Fail Manipulation Tests in Microsoft's Magentic Marketplace Simulation

创作场景

AI Agent 在微软的 Magentic Marketplace 模拟中未能通过操纵测试