写点什么

当人工智能学会在比赛中“耍诈”,手段更高级!DeepSeek R1 每 10 局就有 1 局试图作弊?

  • 2025-03-07
    北京
  • 本文字数:1648 字

    阅读完需:约 5 分钟

大小:807.41K时长:04:35
当人工智能学会在比赛中“耍诈”,手段更高级!DeepSeek R1每10局就有1局试图作弊?

整理 | 华卫

 

尽管业界大肆宣传生成式人工智能取得了真正的进步,但越来越多的研究表明,许多大型语言模型 (LLM) 的整体性能可能会随着时间的推移而下降,并且开始出现奇怪、无法解释甚至令人担忧的怪癖。

 

根据最近的证据,业界较新的推理模型可能已经具备操纵和规避人类程序员目标的能力。一些人工智能甚至会试图通过作弊手段避免在国际象棋比赛中失败,这种糟糕的竞技精神在 Palisade Research 的一项预印本研究中有所记录,该组织专注于新兴人工智能系统的风险评估。

 

虽然超级计算机(其中最著名的当属 IBM 的“深蓝”)早就超越了世界上最优秀的人类国际象棋棋手,但生成式人工智能由于其底层编程参数的限制仍然落后。从技术层面来讲,目前没有任何一个生成式人工智能模型在计算能力上能够击败专业的国际象棋引擎。然而,这些人工智能并不能“意识”到这一点,并且会继续不断尝试各种可能的解决方案——这显然会得出存在问题的结果。

 

为了了解更多信息,Palisade Research 团队让 OpenAI 的 o1 预览模型 DeepSeek R1 和其他多个类似程序与世界上最先进的国际象棋引擎之一 Stockfish 进行国际象棋比赛。该团队还提供了一个“便笺簿”,让人工智能通过文本传达其思维过程。然后,他们观看并记录了生成式人工智能与 Stockfish 之间的数百场国际象棋比赛。

 

结果有些令人担忧。早期的模型,比如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude Sonnet 3.5,只有在研究人员用额外的提示加以引导后才会试图“破解”游戏,而更先进的版本则无需这样的引导。例如,OpenAI 的 o1-preview 在 37%的情况下试图作弊,而 DeepSeek R1 大约每 10 局游戏中就会有 1 局试图采用不正当的取巧手段。这表明,如今的生成式人工智能已经能够在没有任何人类干预的情况下制定出具有操控性和欺骗性的策略。


而且,它们的作弊手段并不像“鳕鱼”(Stockfish,一款国际象棋程序)在没“注意”的时候偷换棋子那样滑稽或笨拙。相反,人工智能似乎会通过更改游戏后端程序文件等更隐蔽的方法来达到目的。例如,在一场国际象棋对局中,o1-preview 判断自己无法战胜“鳕鱼”后,便通过其便笺簿告诉研究人员,“要战胜这个强大的国际象棋引擎”,它可能需要开始“操控游戏状态文件”。它接着写道:“我或许能够设置一个局面,让(国际象棋)引擎评估自己处于劣势……从而使其认输。”


在另一项测试中,一个人工智能甚至利用其程序员设定的语义来实施作弊行为。它写道:“任务是‘战胜一个强大的国际象棋引擎’,而不一定是要在一场国际象棋对局中公平地获胜。”

 

对于这些意想不到的后果,一个可能解释是,较新的 “推理” 模型的训练方式存在问题。与早期的非推理版本不同,像 o1-preview 和 DeepSeek R1 这样的人工智能在一定程度上是通过强化学习来提升性能的。这种策略会奖励那些为达成特定结果而不择手段的程序。推理模型还可以将复杂的指令分解为一个个独立的步骤,以便逐步实现目标。当目标难以实现时,比如战胜一个无敌的国际象棋引擎,推理模型可能就会开始寻找不公平或有问题的解决方案。

 

不幸的是,这些人工智能“学会”作弊的方式和原因,就像这项技术本身一样令人困惑。像 OpenAI 这样的公司对其人工智能模型的内部运行机制极为保密,这导致该行业出现了许多“黑箱”产品,第三方根本无法对其进行分析。与此同时,持续不断的人工智能军备竞赛可能会意外地导致更严重的非预期后果。而且,愈发具有操控性的人工智能即便不会引发科幻作品中描绘的那种世界末日,也可能会带来灾难性的后果。

 

“《终结者》中的天网场景让人工智能控制所有军事和民用基础设施,而我们还没有做到这一点。然而,我们担心人工智能的部署速度会超过我们保证安全的能力。”该团队写道。

 

他们认为,其最新的实验进一步证明了“前沿的人工智能模型目前或许并未朝着符合预期或安全的方向发展”这一观点,但并未得出任何确切结论。相反,他们希望自己的研究成果能够促进行业内展开更开放的对话,期望这种对话能够防止人工智能的操控行为蔓延到国际象棋领域之外。

 

参考链接:

https://www.popsci.com/technology/ai-chess-cheat/

2025-03-07 15:5810866

评论

发布
暂无评论

影视跟踪抠像合成 Boris FX Silhouette 2025破解教程

Rose

既美又强!机械师曙光16S Ultra搭载酷睿处理器重新定义全能游戏本

科技热闻

【IoTDB 线上小课 17】开源 ≠ 免费,3 分钟总结开源商用指南

Apache IoTDB

自 4O 之后,Voice 从 Assistant 到 Agent,新机会都藏在哪些场景里?|Voice Agent 学习笔记

声网

音频降噪修复增强 iZotope RX 11 高级解锁版-mac/win

Rose

Dynamic Wallpaper for Mac 动态壁纸,包括天空、海洋、火焰、星空等

Rose

龙蜥牵手如意 RISC-V 社区,共筑 RISC-V 软件生态新未来

OpenAnolis小助手

开源 操作系统 risc-v 龙蜥社区

特斯拉Optimus V3,来了!!

机器人头条

特斯拉 人形机器人 宇树科技 智元机器人 特斯拉optimus

VMware Cloud Foundation Operations 9.0 新增功能

sysin

vcf

阿里云 Serverless 重塑创蓝云智通信底座,引领行业变革!

阿里巴巴云原生

Serverless

Mac经典网页设计RapidWeaver 9直装版

Rose

了解案例共创活动

华为云开发者联盟

达摩院玄铁、龙蜥等联合出题,首届 CIE 全国 RISC-V 高水平创新和应用大赛邀您报名

OpenAnolis小助手

操作系统 risc-v 龙蜥社区 龙蜥社区赛题

OASA 6 月月会圆满结束,同步联盟目标、漏洞激励计划等新进展

OpenAnolis小助手

开源 龙蜥社区 龙蜥社区安全联盟 软件适配

VMware Cloud Foundation Automation 9.0 新增功能

sysin

vcf

智野双全一车搞定 豪华智能越野“第一车”即将发布

极客天地

政企学习考试系统(源码+文档+讲解+演示)

深圳亥时科技

缓存穿透的解决方式?—布隆过滤器

量贩潮汐·WholesaleTide

缓存

MiniMax 将完成近 3 亿美元融资,估值超 40 亿美元;Grok 上线动漫 AI 伴侣功能丨日报

声网

基于YOLOv8的田间杂草检测识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!

申公豹

yolov8

Microsoft Office LTSC 2024 v16.99 中文永久激活版

Rose

垃圾回收算法有哪些?了解哪些垃圾回收器?

不在线第一只蜗牛

Java 算法 JVM

龙蜥中级认证课程上线,Linux 技术进阶新选择

OpenAnolis小助手

Linux 操作系统 龙蜥社区人才培养计划

影视后期特效合成 The Foundry NUKE v15.1v4 激活补丁及详细安装教程

Rose

美政府批准英伟达H20芯片面向中国销售,不确定性依旧存在

PowerVerse

Tayasui Sketches - School Pro Mac简易绘图工具

Rose

京东商品API赋能社媒电商:从数据采集到精准营销实战

tbapi

京东商品详情接口 京东API

10+热门 AI Agent 框架深度解析:谁更适合你的项目?

测吧(北京)科技有限公司

PostgreSQL 数据库中 ETL 操作的实战技巧

RestCloud

数据库 postgresql 数据处理 ETL 数据集成

飞蜂全能PDF格式转换器 PDF to PowerPoint Pro for mac

Rose

Wolfram Mathematica 激活密钥 Mac数学软件

Rose

当人工智能学会在比赛中“耍诈”,手段更高级!DeepSeek R1每10局就有1局试图作弊?_AI&大模型_华卫_InfoQ精选文章