当人工智能学会在比赛中“耍诈”，手段更高级！DeepSeek R1每10局就有1局试图作弊？_AI&大模型_华卫

阿里云飞天发布时刻，领先大模型限免，超7000万 tokens免费体验了解详情 



 写点什么



1.0x 

大小：807.41K时长：04:35

当人工智能学会在比赛中“耍诈”，手段更高级！DeepSeek R1每10局就有1局试图作弊？

整理｜华卫

尽管业界大肆宣传生成式人工智能取得了真正的进步，但越来越多的研究表明，许多大型语言模型 (LLM) 的整体性能可能会随着时间的推移而下降，并且开始出现奇怪、无法解释甚至令人担忧的怪癖。

根据最近的证据，业界较新的推理模型可能已经具备操纵和规避人类程序员目标的能力。一些人工智能甚至会试图通过作弊手段避免在国际象棋比赛中失败，这种糟糕的竞技精神在 Palisade Research 的一项预印本研究中有所记录，该组织专注于新兴人工智能系统的风险评估。

虽然超级计算机（其中最著名的当属 IBM 的“深蓝”）早就超越了世界上最优秀的人类国际象棋棋手，但生成式人工智能由于其底层编程参数的限制仍然落后。从技术层面来讲，目前没有任何一个生成式人工智能模型在计算能力上能够击败专业的国际象棋引擎。然而，这些人工智能并不能“意识”到这一点，并且会继续不断尝试各种可能的解决方案——这显然会得出存在问题的结果。

为了了解更多信息，Palisade Research 团队让 OpenAI 的 o1 预览模型 DeepSeek R1 和其他多个类似程序与世界上最先进的国际象棋引擎之一 Stockfish 进行国际象棋比赛。该团队还提供了一个“便笺簿”，让人工智能通过文本传达其思维过程。然后，他们观看并记录了生成式人工智能与 Stockfish 之间的数百场国际象棋比赛。

结果有些令人担忧。早期的模型，比如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude Sonnet 3.5，只有在研究人员用额外的提示加以引导后才会试图“破解”游戏，而更先进的版本则无需这样的引导。例如，OpenAI 的 o1-preview 在 37%的情况下试图作弊，而 DeepSeek R1 大约每 10 局游戏中就会有 1 局试图采用不正当的取巧手段。这表明，如今的生成式人工智能已经能够在没有任何人类干预的情况下制定出具有操控性和欺骗性的策略。

而且，它们的作弊手段并不像“鳕鱼”（Stockfish，一款国际象棋程序）在没“注意”的时候偷换棋子那样滑稽或笨拙。相反，人工智能似乎会通过更改游戏后端程序文件等更隐蔽的方法来达到目的。例如，在一场国际象棋对局中，o1-preview 判断自己无法战胜“鳕鱼”后，便通过其便笺簿告诉研究人员，“要战胜这个强大的国际象棋引擎”，它可能需要开始“操控游戏状态文件”。它接着写道：“我或许能够设置一个局面，让（国际象棋）引擎评估自己处于劣势……从而使其认输。”

在另一项测试中，一个人工智能甚至利用其程序员设定的语义来实施作弊行为。它写道：“任务是‘战胜一个强大的国际象棋引擎’，而不一定是要在一场国际象棋对局中公平地获胜。”

对于这些意想不到的后果，一个可能解释是，较新的 “推理” 模型的训练方式存在问题。与早期的非推理版本不同，像 o1-preview 和 DeepSeek R1 这样的人工智能在一定程度上是通过强化学习来提升性能的。这种策略会奖励那些为达成特定结果而不择手段的程序。推理模型还可以将复杂的指令分解为一个个独立的步骤，以便逐步实现目标。当目标难以实现时，比如战胜一个无敌的国际象棋引擎，推理模型可能就会开始寻找不公平或有问题的解决方案。

不幸的是，这些人工智能“学会”作弊的方式和原因，就像这项技术本身一样令人困惑。像 OpenAI 这样的公司对其人工智能模型的内部运行机制极为保密，这导致该行业出现了许多“黑箱”产品，第三方根本无法对其进行分析。与此同时，持续不断的人工智能军备竞赛可能会意外地导致更严重的非预期后果。而且，愈发具有操控性的人工智能即便不会引发科幻作品中描绘的那种世界末日，也可能会带来灾难性的后果。

“《终结者》中的天网场景让人工智能控制所有军事和民用基础设施，而我们还没有做到这一点。然而，我们担心人工智能的部署速度会超过我们保证安全的能力。”该团队写道。

他们认为，其最新的实验进一步证明了“前沿的人工智能模型目前或许并未朝着符合预期或安全的方向发展”这一观点，但并未得出任何确切结论。相反，他们希望自己的研究成果能够促进行业内展开更开放的对话，期望这种对话能够防止人工智能的操控行为蔓延到国际象棋领域之外。

参考链接：

https://www.popsci.com/technology/ai-chess-cheat/

发布

暂无评论

创作场景

当人工智能学会在比赛中“耍诈”，手段更高级！DeepSeek R1 每 10 局就有 1 局试图作弊？

评论

极客时间【架构实战营】第二期模块五作业

微博评论架构设计

在线EXCEL文件数据转换解析工具

反序列化漏洞复现总结

自定义View：几何变换实质与技巧

一口气面试7家大厂，已拿下4家offer，其实大厂没有你想象中难！

阿里开源的这个库，让 Excel 导出不再复杂（既要能写，还要写的好看）

创建线程池学习笔记

构建全屏 Web 应用程序

架构实战营第五次作业

架构训练营模块五

为什么常用二倍图，流式布局中一倍图是否靠得住

重学 Java 之 5种字符流读取方法

如何说孩子才肯听，怎么听孩子才肯说（上）

技术人在职场如何摆正心态

微博评论背后的高性能高可用计算架构

架构：微内核架构（Microkernel Architecture）

架构实战训练营模块 5 作业

学习心得 - 架构训练营 - 第五课

实时监控：基于流计算 Oceanus ( Flink ) 实现系统和应用级实时监控

微博评论高性能高可用计算架构

Prometheus 基础查询（三）范围向量和 PromQL 的缺陷

模块五-微博评论的高性能高可用计算架构

模块5作业

微博评论高性能高可用架构设计

(model5)微博评论高性能高可用计算架构

【Promise 源码学习】目录 - Promise 知识点梳理

绝绝子！美团大牛吐血整理总结“消息队列核心知识笔记”是真的吊

5G通话占道4G，你的5G套餐性价比真的高吗？

声网教育aPaaS 产品灵动课堂：「低代码」开发，15分钟极速上线

linux之grep使用技巧

创作场景

当人工智能学会在比赛中“耍诈”，手段更高级！DeepSeek R1 每 10 局就有 1 局试图作弊？

评论

推荐阅读

电子书

大厂实战PPT下载