阿里云飞天发布时刻,领先大模型限免,超7000万 tokens免费体验 了解详情
写点什么

当人工智能学会在比赛中“耍诈”,手段更高级!DeepSeek R1 每 10 局就有 1 局试图作弊?

  • 2025-03-07
    北京
  • 本文字数:1648 字

    阅读完需:约 5 分钟

大小:807.41K时长:04:35
当人工智能学会在比赛中“耍诈”,手段更高级!DeepSeek R1每10局就有1局试图作弊?

整理 | 华卫

 

尽管业界大肆宣传生成式人工智能取得了真正的进步,但越来越多的研究表明,许多大型语言模型 (LLM) 的整体性能可能会随着时间的推移而下降,并且开始出现奇怪、无法解释甚至令人担忧的怪癖。

 

根据最近的证据,业界较新的推理模型可能已经具备操纵和规避人类程序员目标的能力。一些人工智能甚至会试图通过作弊手段避免在国际象棋比赛中失败,这种糟糕的竞技精神在 Palisade Research 的一项预印本研究中有所记录,该组织专注于新兴人工智能系统的风险评估。

 

虽然超级计算机(其中最著名的当属 IBM 的“深蓝”)早就超越了世界上最优秀的人类国际象棋棋手,但生成式人工智能由于其底层编程参数的限制仍然落后。从技术层面来讲,目前没有任何一个生成式人工智能模型在计算能力上能够击败专业的国际象棋引擎。然而,这些人工智能并不能“意识”到这一点,并且会继续不断尝试各种可能的解决方案——这显然会得出存在问题的结果。

 

为了了解更多信息,Palisade Research 团队让 OpenAI 的 o1 预览模型 DeepSeek R1 和其他多个类似程序与世界上最先进的国际象棋引擎之一 Stockfish 进行国际象棋比赛。该团队还提供了一个“便笺簿”,让人工智能通过文本传达其思维过程。然后,他们观看并记录了生成式人工智能与 Stockfish 之间的数百场国际象棋比赛。

 

结果有些令人担忧。早期的模型,比如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude Sonnet 3.5,只有在研究人员用额外的提示加以引导后才会试图“破解”游戏,而更先进的版本则无需这样的引导。例如,OpenAI 的 o1-preview 在 37%的情况下试图作弊,而 DeepSeek R1 大约每 10 局游戏中就会有 1 局试图采用不正当的取巧手段。这表明,如今的生成式人工智能已经能够在没有任何人类干预的情况下制定出具有操控性和欺骗性的策略。


而且,它们的作弊手段并不像“鳕鱼”(Stockfish,一款国际象棋程序)在没“注意”的时候偷换棋子那样滑稽或笨拙。相反,人工智能似乎会通过更改游戏后端程序文件等更隐蔽的方法来达到目的。例如,在一场国际象棋对局中,o1-preview 判断自己无法战胜“鳕鱼”后,便通过其便笺簿告诉研究人员,“要战胜这个强大的国际象棋引擎”,它可能需要开始“操控游戏状态文件”。它接着写道:“我或许能够设置一个局面,让(国际象棋)引擎评估自己处于劣势……从而使其认输。”


在另一项测试中,一个人工智能甚至利用其程序员设定的语义来实施作弊行为。它写道:“任务是‘战胜一个强大的国际象棋引擎’,而不一定是要在一场国际象棋对局中公平地获胜。”

 

对于这些意想不到的后果,一个可能解释是,较新的 “推理” 模型的训练方式存在问题。与早期的非推理版本不同,像 o1-preview 和 DeepSeek R1 这样的人工智能在一定程度上是通过强化学习来提升性能的。这种策略会奖励那些为达成特定结果而不择手段的程序。推理模型还可以将复杂的指令分解为一个个独立的步骤,以便逐步实现目标。当目标难以实现时,比如战胜一个无敌的国际象棋引擎,推理模型可能就会开始寻找不公平或有问题的解决方案。

 

不幸的是,这些人工智能“学会”作弊的方式和原因,就像这项技术本身一样令人困惑。像 OpenAI 这样的公司对其人工智能模型的内部运行机制极为保密,这导致该行业出现了许多“黑箱”产品,第三方根本无法对其进行分析。与此同时,持续不断的人工智能军备竞赛可能会意外地导致更严重的非预期后果。而且,愈发具有操控性的人工智能即便不会引发科幻作品中描绘的那种世界末日,也可能会带来灾难性的后果。

 

“《终结者》中的天网场景让人工智能控制所有军事和民用基础设施,而我们还没有做到这一点。然而,我们担心人工智能的部署速度会超过我们保证安全的能力。”该团队写道。

 

他们认为,其最新的实验进一步证明了“前沿的人工智能模型目前或许并未朝着符合预期或安全的方向发展”这一观点,但并未得出任何确切结论。相反,他们希望自己的研究成果能够促进行业内展开更开放的对话,期望这种对话能够防止人工智能的操控行为蔓延到国际象棋领域之外。

 

参考链接:

https://www.popsci.com/technology/ai-chess-cheat/

2025-03-07 15:5810743

评论

发布
暂无评论

极客时间【架构实战营】第二期 模块五作业

Geek_91606e

架构实战营

微博评论架构设计

Yina🌝很浪🌊

在线EXCEL文件数据转换解析工具

入门小站

工具

反序列化漏洞复现总结

网络安全学海

黑客 网络安全 信息安全 WEB安全 安全漏洞

自定义View:几何变换实质与技巧

Changing Lin

10月月更

一口气面试7家大厂,已拿下4家offer,其实大厂没有你想象中难!

程序员小呆

Java 程序员 面试 架构师 资料

阿里开源的这个库,让 Excel 导出不再复杂(既要能写,还要写的好看)

看山

Java EasyExcel 10月月更

创建线程池学习笔记

风翱

线程池 10月月更

构建全屏 Web 应用程序

devpoint

JavaScript html5 大前端 10月月更

架构实战营第五次作业

Geek_d18264

架构实战营

架构训练营 模块五

Leach Sun

为什么常用二倍图,流式布局中一倍图是否靠得住

你好bk

css3 大前端 html/css 页面布局

重学 Java 之 5种字符流读取方法

进击的王小二

java基础 字符流 java

如何说孩子才肯听,怎么听孩子才肯说(上)

石云升

读书笔记 育儿 10月月更

技术人在职场如何摆正心态

baiyutang

职场 10月月更

微博评论背后的高性能高可用计算架构

Nico

架构:微内核架构(Microkernel Architecture)

程序员架构进阶

架构 微内核 插件化 10月月更

架构实战训练营模块 5 作业

Sonichen

学习心得 - 架构训练营 - 第五课

Fm

实时监控:基于流计算 Oceanus ( Flink ) 实现系统和应用级实时监控

腾讯云大数据

流计算 Oceanus

微博评论高性能高可用计算架构

毛先生

Prometheus 基础查询(三)范围向量和 PromQL 的缺陷

耳东@Erdong

Prometheus 10月月更

模块五-微博评论的高性能高可用计算架构

娜酱

「架构实战营」

模块5作业

4anonymous

微博评论高性能高可用架构设计

Geek_db27b5

(model5)微博评论高性能高可用计算架构

消失的子弹

架构 微服务

【Promise 源码学习】目录 - Promise 知识点梳理

Brave

源码 Promise 10月月更

绝绝子!美团大牛吐血整理总结“消息队列核心知识笔记”是真的吊

进击的王小二

分布式 MQ 消息队列 java

5G通话占道4G,你的5G套餐性价比真的高吗?

脑极体

声网教育aPaaS 产品灵动课堂:「低代码」开发,15分钟极速上线

声网

人工智能 大数据 云服务

linux之grep使用技巧

入门小站

Linux

当人工智能学会在比赛中“耍诈”,手段更高级!DeepSeek R1每10局就有1局试图作弊?_AI&大模型_华卫_InfoQ精选文章