Agentic AI、具身智能、强化学习框架、端侧大模型……来QCon上海站,感受AI的未来! 了解详情
写点什么

当人工智能学会在比赛中“耍诈”,手段更高级!DeepSeek R1 每 10 局就有 1 局试图作弊?

  • 2025-03-07
    北京
  • 本文字数:1648 字

    阅读完需:约 5 分钟

大小:807.41K时长:04:35
当人工智能学会在比赛中“耍诈”,手段更高级!DeepSeek R1每10局就有1局试图作弊?

整理 | 华卫

 

尽管业界大肆宣传生成式人工智能取得了真正的进步,但越来越多的研究表明,许多大型语言模型 (LLM) 的整体性能可能会随着时间的推移而下降,并且开始出现奇怪、无法解释甚至令人担忧的怪癖。

 

根据最近的证据,业界较新的推理模型可能已经具备操纵和规避人类程序员目标的能力。一些人工智能甚至会试图通过作弊手段避免在国际象棋比赛中失败,这种糟糕的竞技精神在 Palisade Research 的一项预印本研究中有所记录,该组织专注于新兴人工智能系统的风险评估。

 

虽然超级计算机(其中最著名的当属 IBM 的“深蓝”)早就超越了世界上最优秀的人类国际象棋棋手,但生成式人工智能由于其底层编程参数的限制仍然落后。从技术层面来讲,目前没有任何一个生成式人工智能模型在计算能力上能够击败专业的国际象棋引擎。然而,这些人工智能并不能“意识”到这一点,并且会继续不断尝试各种可能的解决方案——这显然会得出存在问题的结果。

 

为了了解更多信息,Palisade Research 团队让 OpenAI 的 o1 预览模型 DeepSeek R1 和其他多个类似程序与世界上最先进的国际象棋引擎之一 Stockfish 进行国际象棋比赛。该团队还提供了一个“便笺簿”,让人工智能通过文本传达其思维过程。然后,他们观看并记录了生成式人工智能与 Stockfish 之间的数百场国际象棋比赛。

 

结果有些令人担忧。早期的模型,比如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude Sonnet 3.5,只有在研究人员用额外的提示加以引导后才会试图“破解”游戏,而更先进的版本则无需这样的引导。例如,OpenAI 的 o1-preview 在 37%的情况下试图作弊,而 DeepSeek R1 大约每 10 局游戏中就会有 1 局试图采用不正当的取巧手段。这表明,如今的生成式人工智能已经能够在没有任何人类干预的情况下制定出具有操控性和欺骗性的策略。


而且,它们的作弊手段并不像“鳕鱼”(Stockfish,一款国际象棋程序)在没“注意”的时候偷换棋子那样滑稽或笨拙。相反,人工智能似乎会通过更改游戏后端程序文件等更隐蔽的方法来达到目的。例如,在一场国际象棋对局中,o1-preview 判断自己无法战胜“鳕鱼”后,便通过其便笺簿告诉研究人员,“要战胜这个强大的国际象棋引擎”,它可能需要开始“操控游戏状态文件”。它接着写道:“我或许能够设置一个局面,让(国际象棋)引擎评估自己处于劣势……从而使其认输。”


在另一项测试中,一个人工智能甚至利用其程序员设定的语义来实施作弊行为。它写道:“任务是‘战胜一个强大的国际象棋引擎’,而不一定是要在一场国际象棋对局中公平地获胜。”

 

对于这些意想不到的后果,一个可能解释是,较新的 “推理” 模型的训练方式存在问题。与早期的非推理版本不同,像 o1-preview 和 DeepSeek R1 这样的人工智能在一定程度上是通过强化学习来提升性能的。这种策略会奖励那些为达成特定结果而不择手段的程序。推理模型还可以将复杂的指令分解为一个个独立的步骤,以便逐步实现目标。当目标难以实现时,比如战胜一个无敌的国际象棋引擎,推理模型可能就会开始寻找不公平或有问题的解决方案。

 

不幸的是,这些人工智能“学会”作弊的方式和原因,就像这项技术本身一样令人困惑。像 OpenAI 这样的公司对其人工智能模型的内部运行机制极为保密,这导致该行业出现了许多“黑箱”产品,第三方根本无法对其进行分析。与此同时,持续不断的人工智能军备竞赛可能会意外地导致更严重的非预期后果。而且,愈发具有操控性的人工智能即便不会引发科幻作品中描绘的那种世界末日,也可能会带来灾难性的后果。

 

“《终结者》中的天网场景让人工智能控制所有军事和民用基础设施,而我们还没有做到这一点。然而,我们担心人工智能的部署速度会超过我们保证安全的能力。”该团队写道。

 

他们认为,其最新的实验进一步证明了“前沿的人工智能模型目前或许并未朝着符合预期或安全的方向发展”这一观点,但并未得出任何确切结论。相反,他们希望自己的研究成果能够促进行业内展开更开放的对话,期望这种对话能够防止人工智能的操控行为蔓延到国际象棋领域之外。

 

参考链接:

https://www.popsci.com/technology/ai-chess-cheat/

2025-03-07 15:5810897

评论

发布
暂无评论

生命中不重要的九件事情

石云升

10月月更

为何实现碳中和已刻不容缓?

CECBC

30天肝出来的Java面试手册!登顶Github标星288k

Java 程序员 架构 面试 后端

百度智能云布局粤港澳大湾区,打造AI+工业互联网新高地

百度大脑

人工智能 百度

阿里P8高级架构师开发高并发系统经验总结

Java 程序员 架构 面试 后端

Leetcode 题目解析:287. 寻找重复数

程序员架构进阶

算法 LeetCode 10月月更

秋招如何抱佛脚?2021最新大厂Java面试真题合集(附权威答案)

Java 编程 程序员 架构 IT

Java通过socket和DTU,RTU连接工业传感器通信

叫练

socket Modbus协议 java DTU RTU

Mock Service Worker:可用于浏览器的Mock服务

devpoint

Vue Mock msw 10月月更

Prometheus 基本查询(二)时序数据的瞬时向量

耳东@Erdong

Prometheus 10月月更

SpringBoot 实战:JUnit5+MockMvc+Mockito 做好单元测试

看山

Java Spring Boot Effective Spring 10月月更

“他”靠这份GitHub star过万的1121页图解算法成功杀进字节跳动

Java 编程 程序员 IT 计算机

好家伙!华为内部Java系统优化笔记一夜之间跃居Github热榜第二

Java 架构 IT 计算机 知识分享

Linux渗透:曲折渗透之路

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

吹爆!阿里高工携18位架构师耗时57天整合的1658页面试总结太香了

Java 编程 程序员 架构 面试

CSS架构之Acss层

Augus

CSS 10月月更

架构实战营 - 模块五作业

Alex.Wu

汽车的新能源之变,不仅在一块电池

脑极体

同事跳槽阿里,临走甩给一份上千页的Linux源码笔记,真香

Java 程序员 架构 面试 后端

链路层的封装成帧和透明传输基本问题

Regan Yue

计算机网络 10月月更

太厉害了,阿里大佬用一篇神文把《数据结构与算法》讲的明明白白

程序员小呆

Java 程序员 架构师

ThreadPoolExecutor学习笔记

风翱

ThreadPoolExecutor 10月月更

区块链与智能革命的未来

CECBC

linux之sudo使用技巧汇总

入门小站

Linux

限时开源!阿里内部爆款的顶配版Spring Security笔记

Java spring 编程 架构 面试

阿里内部教程:千页Redis源码笔记,涨薪必备

Java 程序员 架构 面试 后端

Go 中 Nil 理论上有类型,实践中无类型

baiyutang

golang 10月月更

【Android构建新工具】Bazel构建工具介绍

轻口味

android 构建工具 10月月更

真香!肝完Alibaba这份面试通关宝典,我成功拿下今年第15个Offer

Java 编程 程序员 IT 计算机

真香!肝完Alibaba这份面试通关宝典,我成功拿下今年第15个Offer

收到请回复

Java 面试 大厂Offer 20+大厂面经

绿色电力交易是一场迫在眉睫,区块链记录每一笔绿色电力交易

CECBC

当人工智能学会在比赛中“耍诈”,手段更高级!DeepSeek R1每10局就有1局试图作弊?_AI&大模型_华卫_InfoQ精选文章