写点什么

下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?

作者:Daniel Dominguez

  • 2025-09-17
    北京
  • 本文字数:993 字

    阅读完需:约 3 分钟

大小:470.54K时长:02:40
下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?

Kaggle 与 Google DeepMind 合作推出了 Kaggle Game Arena,这一平台通过战略类游戏对人工智能模型进行对战评测。


该系统提供了一个受控环境,让不同模型直接对战。每场比赛都会严格遵循所选游戏的规则,系统会记录比赛结果,并据此形成排行榜。为了保证评测的公平性,平台采用全对全(all-play-all)的赛制,也就是每个模型会多次与其他所有模型对战,从而减少随机因素的干扰,使结果在统计上更加可靠。


Game Arena 依赖开源组件。平台已将游戏运行环境及规则执行、模型对接等控制模块全面开源。这一设计方便开发者和研究人员进行检查、复现或扩展。


首批参赛的八个主流 AI 模型包括:Anthropic 的 Claude Opus 4、DeepSeek 的 DeepSeek-R1、Google 的 Gemini 2.5 Pro 与 Gemini 2.5 Flash、Moonshot AI 的 Kimi 2-K2-Instruct、OpenAI 的 o3 和 o4-mini,以及 xAI 的 Grok 4


与其他主要集中在语言任务、图像分类或编程挑战的 AI 测评平台相比,Kaggle Game Arena 将关注点转向“在规则与约束下的决策力”。无论是国际象棋,还是未来即将上线的其他游戏,都突出推理、规划与对抗适应性,为目前以静态输出为主的排行榜增添了新的参照维度。


研究人员的评论指出,这类基准测试有助于发现 AI 系统在传统数据集之外的优势与不足。一部分观点认为,游戏提供了一种开放、可反复验证的手段;但也有人提醒,受控环境并不能完全还原真实世界的复杂决策。


AI 爱好者 Sebastian Zabala 在平台上发文表示:

简直炸裂!国际象棋是完美的开局——等不及要看顶级 AI 在实战对抗中的表现。


AI 布道者 Koho Okada 则分享道:

这可能真的会改写我们评估 AI 智能的方式——既专业又好玩!


而 Kaggle 用户 Sourabh Joshi 补充说:

下棋是看局面,AI 是看能力。作为一名棋手,我认为 Kaggle Game Arena 是测试泛化性、效率和推理力的理想战场。就像棋局能显露大师的深度与思路,这个平台将揭示大语言模型的真正实力。我对此感到无比期待。


据 Kaggle 与 DeepMind 表示,平台并不会局限于国际象棋。未来,Game Arena 将扩展到卡牌游戏和数字游戏等更多类型,用以测试 AI 在战略推理中的不同能力,包括长期规划和在不确定条件下的适应性。


通过标准化的对战机制,Kaggle Game Arena 为评估 AI 模型开辟了新基准,关注的已不仅仅是语言或模式识别,而是模型在竞争环境中的决策能力。


原文链接:

https://www.infoq.com/news/2025/09/kaggle-game-arena/

2025-09-17 16:594221

评论

发布
暂无评论
发现更多内容

宋泽致“全体员工”的一封信——野火不惧寒风,山花终将灿烂

中烟创新

前端热更新:静默引擎重构中国互联网敏捷生态与数字化转型范式

xuyinyin

从核心到边缘,Solidigm SSD助力破解AI存储难题

科技热闻

NocoBase 本周更新汇总:支持自定义聚合变量

NocoBase

开源 低代码 零代码 无代码 版本更新

非凸底仓增强算法上线国盛证券,开启智能交易新纪元

非凸科技

CST圆极化贴片天线阵列 --- 时域T-solver, 分组激励法 By zone(Grouping)

思茂信息

电磁 天线 CST Studio Suite

AI 在英语口语练习中的核心应用

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

数字藏品 NFT 系统的开发

北京木奇移动技术有限公司

NFT开发 软件外包公司 音乐NFT

从几个方面深入分析信创堡垒机的作用

行云管家

信创 数据安全 堡垒机 国产化

反向海淘系统新篇!Hoobuy同款系统来袭

tbapi

淘宝代购系统 反向海淘系统 淘宝代购系统开发 反向海淘集运系统 hoobuy系统

在AI时代挖掘真实需求:从CSV转HTML工具看用户痛点与创新方向

qife122

数据分析 需求挖掘

Vectorworks 2023 for mac(3D建筑设计软件)

晨光熹微

技术分享 | 基于 Amazon Codepipeline 的静态网站自动部署

伊克罗德信息科技

Cisdem Duplicate Finder for Mac重复文件查找工具

Geek贝

Mac 软件

助力律师团队持续增长,iCourt跨界论坛走进华为探讨法律行业发展方向

科技汇

猫头虎 推荐:国产开源AI工具 爱派(AiPy)|支持本地部署、自动化操作本地文件的AI办公神器

猫头虎

人工智能 大模型 AI编程 AI 编程 猫头虎

vivo Pulsar 万亿级消息处理实践(3)-KoP指标异常修复

vivo互联网技术

Java 大数据 消息队列 pulsar Kafk

SQLPro for MSSQL for Mac(MSSQL数据库客户端)

晨光熹微

Google Search Console 做SEO分析之“已发现未编入” 与 “已抓取未编入” 有什么区别?

村头的猫

搜索引擎 SEO 建站 SEO工具 SEO 优化

从Rust模块化探索到DLB 2.0实践|得物技术

得物技术

rust DLB

【社招】斑马、问界、长城、一汽、鉴智招人

Y11

安全 简历优化 找工作

法律AI或将颠覆行业,AlphaGPT带来法律工具新革命

科技汇

Spring框架中的Component与Bean注解

码语者

Java spring bean Component

A Better Finder Attributes 7 for Mac文件批量重命名工具

Geek贝

Awesome LLM Apps - 精选大型语言模型应用集合

qife122

语音助手 LLM rag

CTF竞赛教会我的那些大学没教的事:从理论到实战的蜕变

qife122

CTF竞赛 实战技能

淘宝API文档:淘宝商品详情API接口

tbapi

淘宝数据采集 淘宝API 淘宝商品详情API接口 天猫API 天猫商品详情api

配得准才是真降本:AI破解零售补调困局

第七在线

JixiPix Premium Pack for mac图像处理工具

Geek贝

一文让你深刻理解等保制度的重大意义

行云管家

等保 等保测评 等级测评

大数据-36 HBase 增删改查 列族详解 实测

武子康

Java 大数据 hadoop 分布式 HBase

下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?_Google_InfoQ精选文章