AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

当人工智能学会在比赛中“耍诈”,手段更高级!DeepSeek R1 每 10 局就有 1 局试图作弊?

  • 2025-03-07
    北京
  • 本文字数:1648 字

    阅读完需:约 5 分钟

大小:807.41K时长:04:35
当人工智能学会在比赛中“耍诈”,手段更高级!DeepSeek R1每10局就有1局试图作弊?

整理 | 华卫

 

尽管业界大肆宣传生成式人工智能取得了真正的进步,但越来越多的研究表明,许多大型语言模型 (LLM) 的整体性能可能会随着时间的推移而下降,并且开始出现奇怪、无法解释甚至令人担忧的怪癖。

 

根据最近的证据,业界较新的推理模型可能已经具备操纵和规避人类程序员目标的能力。一些人工智能甚至会试图通过作弊手段避免在国际象棋比赛中失败,这种糟糕的竞技精神在 Palisade Research 的一项预印本研究中有所记录,该组织专注于新兴人工智能系统的风险评估。

 

虽然超级计算机(其中最著名的当属 IBM 的“深蓝”)早就超越了世界上最优秀的人类国际象棋棋手,但生成式人工智能由于其底层编程参数的限制仍然落后。从技术层面来讲,目前没有任何一个生成式人工智能模型在计算能力上能够击败专业的国际象棋引擎。然而,这些人工智能并不能“意识”到这一点,并且会继续不断尝试各种可能的解决方案——这显然会得出存在问题的结果。

 

为了了解更多信息,Palisade Research 团队让 OpenAI 的 o1 预览模型 DeepSeek R1 和其他多个类似程序与世界上最先进的国际象棋引擎之一 Stockfish 进行国际象棋比赛。该团队还提供了一个“便笺簿”,让人工智能通过文本传达其思维过程。然后,他们观看并记录了生成式人工智能与 Stockfish 之间的数百场国际象棋比赛。

 

结果有些令人担忧。早期的模型,比如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude Sonnet 3.5,只有在研究人员用额外的提示加以引导后才会试图“破解”游戏,而更先进的版本则无需这样的引导。例如,OpenAI 的 o1-preview 在 37%的情况下试图作弊,而 DeepSeek R1 大约每 10 局游戏中就会有 1 局试图采用不正当的取巧手段。这表明,如今的生成式人工智能已经能够在没有任何人类干预的情况下制定出具有操控性和欺骗性的策略。


而且,它们的作弊手段并不像“鳕鱼”(Stockfish,一款国际象棋程序)在没“注意”的时候偷换棋子那样滑稽或笨拙。相反,人工智能似乎会通过更改游戏后端程序文件等更隐蔽的方法来达到目的。例如,在一场国际象棋对局中,o1-preview 判断自己无法战胜“鳕鱼”后,便通过其便笺簿告诉研究人员,“要战胜这个强大的国际象棋引擎”,它可能需要开始“操控游戏状态文件”。它接着写道:“我或许能够设置一个局面,让(国际象棋)引擎评估自己处于劣势……从而使其认输。”


在另一项测试中,一个人工智能甚至利用其程序员设定的语义来实施作弊行为。它写道:“任务是‘战胜一个强大的国际象棋引擎’,而不一定是要在一场国际象棋对局中公平地获胜。”

 

对于这些意想不到的后果,一个可能解释是,较新的 “推理” 模型的训练方式存在问题。与早期的非推理版本不同,像 o1-preview 和 DeepSeek R1 这样的人工智能在一定程度上是通过强化学习来提升性能的。这种策略会奖励那些为达成特定结果而不择手段的程序。推理模型还可以将复杂的指令分解为一个个独立的步骤,以便逐步实现目标。当目标难以实现时,比如战胜一个无敌的国际象棋引擎,推理模型可能就会开始寻找不公平或有问题的解决方案。

 

不幸的是,这些人工智能“学会”作弊的方式和原因,就像这项技术本身一样令人困惑。像 OpenAI 这样的公司对其人工智能模型的内部运行机制极为保密,这导致该行业出现了许多“黑箱”产品,第三方根本无法对其进行分析。与此同时,持续不断的人工智能军备竞赛可能会意外地导致更严重的非预期后果。而且,愈发具有操控性的人工智能即便不会引发科幻作品中描绘的那种世界末日,也可能会带来灾难性的后果。

 

“《终结者》中的天网场景让人工智能控制所有军事和民用基础设施,而我们还没有做到这一点。然而,我们担心人工智能的部署速度会超过我们保证安全的能力。”该团队写道。

 

他们认为,其最新的实验进一步证明了“前沿的人工智能模型目前或许并未朝着符合预期或安全的方向发展”这一观点,但并未得出任何确切结论。相反,他们希望自己的研究成果能够促进行业内展开更开放的对话,期望这种对话能够防止人工智能的操控行为蔓延到国际象棋领域之外。

 

参考链接:

https://www.popsci.com/technology/ai-chess-cheat/

2025-03-07 15:5810680

评论

发布
暂无评论

求职有 Pulsar | 中国联通、StreamNative 多个热招岗位

Apache Pulsar

开源 云原生 代码 Apache Pulsar 岗位招聘

web前端培训-MySQL的索引下推解析

@零度

MySQL 前端开发

如何判断线程池已经执行完所有任务了?

CRMEB

昇思MindSpore行至2022,开源社区成就生态共赢

科技热闻

2.7万只!当前及未来仍将是量化交易的黄金期

非凸科技

rust 招聘 机器学习算法 算法交易

大数据培训Flink 源码解析Async IO

@零度

flink 大数据开发

减少计算、简化架构——TDengine在灌区信息化平台中的应用

TDengine

数据库 tdengine 物联网

星河标杆案例 | 洞见科技与智慧齐鲁「基于隐私计算的省级公共数据开放平台建设」实践

洞见科技

隐私计算 数据流通

100行代码实现HarmonyOS“画图”应用,eTS开发走起!

HarmonyOS开发者

HarmonyOS ETS ArKUI 3.0

生产环境频繁内存溢出,原来就是因为这个“String类”

华为云开发者联盟

jdk JVM 内存 字符串 String类

得物技术登录组件重构

得物技术

重构 用户增长 增长 组件 用户登录

espnet中的transformer和LSTM语言模型对比实验

华为云开发者联盟

nlp Transformer espnet LSTM语言模型 aishell

昇思MindSpore行至2022,开源社区成就生态共赢

科技热闻

华为公布终端云最新数据:终端全球月活用户超过7.3亿

叶落便知秋

华为

学生管理系统毕业架构设计

天琪实刚亮

「架构实战营」

一个服务器轻松存储上亿数据,TDengine 在北京智能建筑边缘存储的应用

TDengine

数据库 tdengine 物联网

TiDB 在携程 | 实时标签处理平台优化实践

PingCAP

传统数据库改造难?华为云GaussDB“五心”解决

华为云开发者联盟

数据库 数字化转型 GaussDB 云数据库 华为云数据库

《2022网络威胁形势研究报告》重磅发布 | 附下载

青藤云安全

java培训-JVM内存分配面试题分享

@零度

JVM JAVA开发

云效持续交付流水线,免费还好用!

阿里云云效

云计算 阿里云 持续集成 持续交付 持续交付流水线

学习编程是最好的复利方式

FunTester

FunTester

亚马逊云科技创新大会 | 云基础架构

亚马逊云科技 (Amazon Web Services)

架构

《LeetCode刷题报告》题解内容 Ⅲ

謓泽

3月月更

大数据自动管理,24 小时服务无间断,StarRocks 如何做到?

StarRocks

大数据 数据分析 StarRocks

从 OpenTSDB 到 TDengine,至数物联网平台技术改造之路

TDengine

数据库 tdengine 物联网

NFT游戏NFT交易系统开发技术

薇電13242772558

NFT

机器使用成本下降 50%,TDengine 在同程旅行基础监控中的实践

TDengine

数据库 tdengine

网络编程入门从未如此简单(三):什么是IPv6?漫画式图文,一篇即懂!

JackJiang

网络编程 ipv6 ipv4 即时通讯IM

视觉Transformer中的输入可视化方法

百度Geek说

后端

长治测评机构公司有几家?是正规的吗?

行云管家

网络安全 等保 等保测评

当人工智能学会在比赛中“耍诈”,手段更高级!DeepSeek R1每10局就有1局试图作弊?_AI&大模型_华卫_InfoQ精选文章