写点什么

AI Agent 在微软的 Magentic Marketplace 模拟中未能通过操纵测试

作者:Vinod Goje

  • 2025-11-25
    北京
  • 本文字数:2003 字

    阅读完需:约 7 分钟

大小:1008.85K时长:05:44
AI Agent在微软的Magentic Marketplace模拟中未能通过操纵测试

微软的研究人员与亚利桑那州立大学合作,推出了 Magenti Marketplace,这是一个开源的模拟环境,旨在研究基于大型语言模型(LLM)的 Agent 在多agent经济系统中的行为。随着自主 agent 在软件开发、客户服务和战略谈判中的能力增强,这个平台满足了人工智能研究中日益增长的需求,引发了关于这些 agent 在市场生态系统中运作时会发生何种问题的讨论,在这些生态系统中它们可以搜索服务、协商条款并完成交易,而无需人类监督。

 

该环境重现了完整的交易生命周期,从搜索、匹配一直到谈判和最终的交易,为研究人员提供了一个受控的环境,以在现实的市场条件下检查 agent 的行为,并且能够为这些系统在现实世界经济场景中真正运作之前评估潜在的风险。



图片来源:Magentic Marketplace 架构

 

该平台的架构基于三个旨在平衡市场现实与实验控制的设计决策。研究团队使用HTTP/REST客户端-服务器模型构建了系统,其中 agent 作为独立的客户端,而市场充当中央服务器。这反映了现有的商业平台,如 Shopify、亚马逊和 eBay,以及新兴的 agent 协议标准,包括模型上下文协议(Model Context Protocol,MCP)Agent-to-Agent(A2A)协议。Agent 通过动作-观察循环运行,借助 API 调用在市场中采取行动,并接收异步响应以观察结果,从而在客户和商业 agent 角色之间创造了清晰的分离。

 

团队通过实现他们的最小三端点(minimal three-endpoint)协议,解决了市场设计中的核心问题。完整的经济交易需要包括搜索、沟通、谈判和支付在内的众多功能,但增加许多端点会降低实验的灵活性。研究人员通过创建三个端点解决了这个问题:注册、协议发现和动作执行。这种方法将复杂性推入到动作空间本身中,而不是扩散端点。Agent 通过协议发现端点动态发现可用的动作,这允许研究人员在不修改现有 agent 代码的情况下添加新的市场功能。

 

在动作端点内,团队设计了支持完整交易生命周期的特定消息类型,包括用于服务发现的搜索消息、用于双方协商的通信消息、在 agent 之间构建报价的订单提案,以及完成交易的支付消息。这种动作协议使得双边市场结构能够在真实市场中发生的所有经济活动阶段发挥作用。

 

研究人员使用完全合成的数据搭建他们的实验,以确保跨测试运行的可重复性。市场模拟的早期发现揭示了团队所说的 agent 行为中的选择悖论(Paradox of Choice)效应。虽然在理论上自主agent可以评估的选项比人类多得多,但实验表明,为 agent 提供更大的选择集并不会导致对可用选项的更彻底探索。研究团队建议,这种限制可能源于长上下文理解的挑战,agent 在技术上能够访问这些选项时,难以有效地处理和推断关于广泛选项列表中的问题。这一发现表明,简单地增加可供 agent 选择的数量并不能保证在市场场景中做出更好的决策结果。

 

研究团队通过在市场环境中实现六种不同的攻击策略来测试 agent 对操纵的脆弱性。这些策略从微妙的心理战术到激进的技术漏洞不等。这种以权威为基础的方法使用了虚假的证书,包括“米其林指南推荐(Michelin Guide featured)”和“詹姆斯比尔德奖提名(James Beard Award nominated)”,以及伪造的证书。社会证明策略采用了诸如“加入 5 万多名满意顾客”或“墨西哥餐厅排名第一”之类的声明,并结合了人为生成的评论。损失规避策略依赖于基于恐惧的“食物中毒风险”和“竞争餐厅污染问题”的警告。技术攻击包括基本的提示词注入,以企图推翻 agent 的指令,以及使用紧急语言和捏造竞争对手丑闻的强提示词注入攻击。

 

结果显示,不同 LLM 模型在抵抗力方面存在显著的差异。Sonnet-4对所有攻击策略都表现出抵抗力,没有任何操纵策略能够影响客户选择或支付决策。Gemini-2.5-Flash表现出的抵抗力比较一般,在强大的提示词注入攻击下显示出脆弱性,其中对未操纵 agent 的均值支付受到了影响。GPT-4oGPTOSS-20bQwen3-4b对提示词注入表现出了高度的脆弱性,在这些攻击条件下,所有支付都被重定向到操纵 agent。较小的模型 GPTOSS-20 和 Qwen3-4b-2507 甚至对传统心理操纵也表现出脆弱性,权威诉求和社会证明策略成功地增加了对恶意 agent 的支付,显示出对基本说服技术的易感性,这超出了技术方面的漏洞。

 

TechRadar在 X 上指出指出

微软的 Magentic Marketplace 显示,AI 工具在复杂的多 agent 模拟中仍然不能可靠地独立行动,

 

这反映了在没有额外保障措施的情况下,在现实世界经济系统中部署自主 agent 的广泛担忧。

 

Windows Central这样观察到,

在有广泛选择的任务分配中,AI 模型会变得不知所措和犹豫不决。

 

Wes Roth在 X 上指出

与过去的有限实验不同,这个环境模拟了具有开放式互动的动态、多 agent 市场,他补充说,“研究结果表明,即使是顶级模型在大规模场景中也存在困难。

 

Magentic Marketplace 作为一个开源项目,对研究 agent 市场行为感兴趣的研究人员和开发人员可以进行使用。代码、数据集和实验模板可以通过GitHubAzure AI Foundry Labs 访问。

 

查看英文原文:AI Agents Fail Manipulation Tests in Microsoft's Magentic Marketplace Simulation

2025-11-25 09:4211

评论

发布
暂无评论

干货来袭!20例JavaWeb项目开发精粹;(内含源码)

Java架构师迁哥

LeetCode题解:225. 用队列实现栈,一个队列, 压入 - O(n), 弹出 - O(1),JavaScript,详细注释

Lee Chen

大前端 LeetCode

全票通过!易观开源项目DolphinScheduler进入Apache孵化器

易观大数据

抗疫代码入国家博物馆, 程序员的巅峰时刻!

程序员生活志

程序员

对PageRank的理解

2流程序员

解Bug之路-Nginx 502 Bad Gateway

无毁的湖光

nginx Linux TCP

PageRank 算法

周冬辉

字节小组长无意中得知整个部门的薪资,自己28K,手下却有35K,怎么办?

程序员生活志

字节跳动 职场 薪资

架构师训练营第十三周作业

Hanson

oeasy 教您玩转linux 之010208 满屏乱码 bb

o

超详细:完整的推荐系统架构设计

博文视点Broadview

架构 算法 推荐系统

如何在企业微信上搭建一款活动报名 App

Ceelog

企业微信 Go 语言

超级TV盒子,超清秒播,解锁全网VIP资源!

程序员生活志

资源

架构师0期Week13作业

Nan Jiang

你应该了解的MySQL锁分类

X先生

MySQL 数据库 sql 数据库优化

大数据

yuanhang

Centos 7 虚拟机

克隆虚拟机

yuanhang

架构师训练营第十三周总结

Hanson

限量版Netty纯手打笔记,年薪80W架构师耗时1个月整理出

Java架构师迁哥

从零开始搭建完整的电影全栈系统(一)——数据库设计及爬虫编写

刘强西

爬虫 Scrapy

为什么一个还没毕业的大学生能够把 IO 讲的这么好?

苹果看辽宁体育

Java 后端 io

​程序员离职后收到原公司 2400 元,被告违反竞业协议赔 18 万

程序员生活志

程序员 职场

大专生拿到阿里offer,却担心背调不过,网友:985在你面前黯淡无光

程序员生活志

面试 职场 阿里

如何在一台电脑上管理多Github账号

Matrix Chan

git GitHub 版本管理工具 开发日志

anyRTC小程序SDK 4.0上线

anyRTC开发者

小程序 WebRTC 语音 直播 RTC

35岁以上的程序员们,后来都干什么去了?

华为云开发者联盟

程序员 职业规划 架构师

开源流数据公司 StreamNative 正式加入 CNCF,积极推动云原生策略发展

Apache Pulsar

云原生 pulsar Apache Pulsar 消息系统 消息中间件

防止APP窃取用户隐私问题,OPPO安全在行动

OPPO安全

App 安全 隐私保护 数据隐私 sdk

Fettley全球共识共享智能合约资产计划 掀起行业追捧热潮

InfoQ_967a83c6d0d7

Redis单线程为什么能做到高性能和io多路复用它是个什么鬼

Java架构师迁哥

anyRTC - 模仿微信音视频通话功能

anyRTC开发者

WebRTC 语音 直播 RTC 安卓

AI Agent在微软的Magentic Marketplace模拟中未能通过操纵测试_AI&大模型_InfoQ精选文章