写点什么

当人工智能学会在比赛中“耍诈”,手段更高级!DeepSeek R1 每 10 局就有 1 局试图作弊?

  • 2025-03-07
    北京
  • 本文字数:1648 字

    阅读完需:约 5 分钟

大小:807.41K时长:04:35
当人工智能学会在比赛中“耍诈”,手段更高级!DeepSeek R1每10局就有1局试图作弊?

整理 | 华卫

 

尽管业界大肆宣传生成式人工智能取得了真正的进步,但越来越多的研究表明,许多大型语言模型 (LLM) 的整体性能可能会随着时间的推移而下降,并且开始出现奇怪、无法解释甚至令人担忧的怪癖。

 

根据最近的证据,业界较新的推理模型可能已经具备操纵和规避人类程序员目标的能力。一些人工智能甚至会试图通过作弊手段避免在国际象棋比赛中失败,这种糟糕的竞技精神在 Palisade Research 的一项预印本研究中有所记录,该组织专注于新兴人工智能系统的风险评估。

 

虽然超级计算机(其中最著名的当属 IBM 的“深蓝”)早就超越了世界上最优秀的人类国际象棋棋手,但生成式人工智能由于其底层编程参数的限制仍然落后。从技术层面来讲,目前没有任何一个生成式人工智能模型在计算能力上能够击败专业的国际象棋引擎。然而,这些人工智能并不能“意识”到这一点,并且会继续不断尝试各种可能的解决方案——这显然会得出存在问题的结果。

 

为了了解更多信息,Palisade Research 团队让 OpenAI 的 o1 预览模型 DeepSeek R1 和其他多个类似程序与世界上最先进的国际象棋引擎之一 Stockfish 进行国际象棋比赛。该团队还提供了一个“便笺簿”,让人工智能通过文本传达其思维过程。然后,他们观看并记录了生成式人工智能与 Stockfish 之间的数百场国际象棋比赛。

 

结果有些令人担忧。早期的模型,比如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude Sonnet 3.5,只有在研究人员用额外的提示加以引导后才会试图“破解”游戏,而更先进的版本则无需这样的引导。例如,OpenAI 的 o1-preview 在 37%的情况下试图作弊,而 DeepSeek R1 大约每 10 局游戏中就会有 1 局试图采用不正当的取巧手段。这表明,如今的生成式人工智能已经能够在没有任何人类干预的情况下制定出具有操控性和欺骗性的策略。


而且,它们的作弊手段并不像“鳕鱼”(Stockfish,一款国际象棋程序)在没“注意”的时候偷换棋子那样滑稽或笨拙。相反,人工智能似乎会通过更改游戏后端程序文件等更隐蔽的方法来达到目的。例如,在一场国际象棋对局中,o1-preview 判断自己无法战胜“鳕鱼”后,便通过其便笺簿告诉研究人员,“要战胜这个强大的国际象棋引擎”,它可能需要开始“操控游戏状态文件”。它接着写道:“我或许能够设置一个局面,让(国际象棋)引擎评估自己处于劣势……从而使其认输。”


在另一项测试中,一个人工智能甚至利用其程序员设定的语义来实施作弊行为。它写道:“任务是‘战胜一个强大的国际象棋引擎’,而不一定是要在一场国际象棋对局中公平地获胜。”

 

对于这些意想不到的后果,一个可能解释是,较新的 “推理” 模型的训练方式存在问题。与早期的非推理版本不同,像 o1-preview 和 DeepSeek R1 这样的人工智能在一定程度上是通过强化学习来提升性能的。这种策略会奖励那些为达成特定结果而不择手段的程序。推理模型还可以将复杂的指令分解为一个个独立的步骤,以便逐步实现目标。当目标难以实现时,比如战胜一个无敌的国际象棋引擎,推理模型可能就会开始寻找不公平或有问题的解决方案。

 

不幸的是,这些人工智能“学会”作弊的方式和原因,就像这项技术本身一样令人困惑。像 OpenAI 这样的公司对其人工智能模型的内部运行机制极为保密,这导致该行业出现了许多“黑箱”产品,第三方根本无法对其进行分析。与此同时,持续不断的人工智能军备竞赛可能会意外地导致更严重的非预期后果。而且,愈发具有操控性的人工智能即便不会引发科幻作品中描绘的那种世界末日,也可能会带来灾难性的后果。

 

“《终结者》中的天网场景让人工智能控制所有军事和民用基础设施,而我们还没有做到这一点。然而,我们担心人工智能的部署速度会超过我们保证安全的能力。”该团队写道。

 

他们认为,其最新的实验进一步证明了“前沿的人工智能模型目前或许并未朝着符合预期或安全的方向发展”这一观点,但并未得出任何确切结论。相反,他们希望自己的研究成果能够促进行业内展开更开放的对话,期望这种对话能够防止人工智能的操控行为蔓延到国际象棋领域之外。

 

参考链接:

https://www.popsci.com/technology/ai-chess-cheat/

2025-03-07 15:5810685

评论

发布
暂无评论

在线常用crontab表达式大全验证解析

入门小站

工具

架构实战营-第6期 模块一课后作业

乐邦

「架构实战营」

如何建立高效的质量保障机制

老张

软件测试 质量保障 交付能力

Video.js 使用教程 - 手把手教你基于 Vue 搭建 HTML 5 视频播放器

蒋川

Vue video.js

Linux常用命令分享:有手就会,但能解决95%以上的问题

优麒麟

Linux 开源 计算机 优麒麟

java高级用法之:在JNA中使用类型映射

程序那些事

Java 程序那些事 3月月更 JNA

什么是404页面?

源字节1号

404

Echarts 折线图完全配置指南 - 手把手教你设置 Echarts 折线图详细教程

蒋川

Vue eCharts

微信业务架构图&学生管理系统架构设计

高山觅流水

架构实战营 「架构实战营」

摩尔定律的现在及未来

科技新消息

成为 DevOps 工程师需要具备哪些能力?

飞算JavaAI开发助手

vivo 商品中台的可视化微前端实践

vivo互联网技术

可视化 前端特效

Petal Maps的美学钥匙,解锁AITO问界M5的硬核浪漫

脑极体

Linux之time命令

入门小站

Linux

赋能创新,深开鸿重磅发布面向金融行业KaihongOS发行版

科技汇

在线HTML压缩工具

入门小站

工具

React Router 6 (React路由) 最详细教程

蒋川

React react rout

AppCube快速开发问卷调查应用在WeLink发布上线

DS小龙哥

3月月更

CPU的“花招”已耍完?无指令集架构颠覆旧套路

OneFlow

人工智能 机器学习 深度学习 英伟达 芯片

性能测试中的LongAdder

FunTester

性能测试 FunTester

解决报错:SSL certificate problem: certificate has expired

liuzhen007

git

个全中文注释的迷你Spring!

程序员阿杜

Java spring springboot

分布式事务详解:分段提交与最终一致性

分布式事务 可靠消息最终一致 TCC 构架 最终一致性

【研讨会报名截止最后一天】全程参会,还有惊喜奖品等你拿!

龙智—DevSecOps解决方案

CI/CD 在线研讨会

【ELT.ZIP】OpenHarmony啃论文俱乐部——轻翻那些永垂不朽的诗篇

ELT.ZIP

OpenHarmony 数据压缩 ELT.ZIP

TDengine 和 InfluxDB 查询性能对比测试报告

TDengine

数据库 tdengine

web前端技术Mongoose详解

编程江湖

DiDi Kafka-Manager安装和简单使用

云原生

kafka spring kafka manager

[Day2]-[回溯] N皇后问题

方勇(gopher)

LeetCode 动态规划 数据结构算法

【躲过裁员,成功上岸】发现小公司有不好的苗头,赶紧学习!

小傅哥

面试 小傅哥 中间件 项目

架构实战营6&微信业务架构&学生管理系统方案

唐诗宋词

当人工智能学会在比赛中“耍诈”,手段更高级!DeepSeek R1每10局就有1局试图作弊?_AI&大模型_华卫_InfoQ精选文章