写点什么

下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?

作者:Daniel Dominguez

  • 2025-09-17
    北京
  • 本文字数:993 字

    阅读完需:约 3 分钟

大小:470.54K时长:02:40
下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?

Kaggle 与 Google DeepMind 合作推出了 Kaggle Game Arena,这一平台通过战略类游戏对人工智能模型进行对战评测。


该系统提供了一个受控环境,让不同模型直接对战。每场比赛都会严格遵循所选游戏的规则,系统会记录比赛结果,并据此形成排行榜。为了保证评测的公平性,平台采用全对全(all-play-all)的赛制,也就是每个模型会多次与其他所有模型对战,从而减少随机因素的干扰,使结果在统计上更加可靠。


Game Arena 依赖开源组件。平台已将游戏运行环境及规则执行、模型对接等控制模块全面开源。这一设计方便开发者和研究人员进行检查、复现或扩展。


首批参赛的八个主流 AI 模型包括:Anthropic 的 Claude Opus 4、DeepSeek 的 DeepSeek-R1、Google 的 Gemini 2.5 Pro 与 Gemini 2.5 Flash、Moonshot AI 的 Kimi 2-K2-Instruct、OpenAI 的 o3 和 o4-mini,以及 xAI 的 Grok 4


与其他主要集中在语言任务、图像分类或编程挑战的 AI 测评平台相比,Kaggle Game Arena 将关注点转向“在规则与约束下的决策力”。无论是国际象棋,还是未来即将上线的其他游戏,都突出推理、规划与对抗适应性,为目前以静态输出为主的排行榜增添了新的参照维度。


研究人员的评论指出,这类基准测试有助于发现 AI 系统在传统数据集之外的优势与不足。一部分观点认为,游戏提供了一种开放、可反复验证的手段;但也有人提醒,受控环境并不能完全还原真实世界的复杂决策。


AI 爱好者 Sebastian Zabala 在平台上发文表示:

简直炸裂!国际象棋是完美的开局——等不及要看顶级 AI 在实战对抗中的表现。


AI 布道者 Koho Okada 则分享道:

这可能真的会改写我们评估 AI 智能的方式——既专业又好玩!


而 Kaggle 用户 Sourabh Joshi 补充说:

下棋是看局面,AI 是看能力。作为一名棋手,我认为 Kaggle Game Arena 是测试泛化性、效率和推理力的理想战场。就像棋局能显露大师的深度与思路,这个平台将揭示大语言模型的真正实力。我对此感到无比期待。


据 Kaggle 与 DeepMind 表示,平台并不会局限于国际象棋。未来,Game Arena 将扩展到卡牌游戏和数字游戏等更多类型,用以测试 AI 在战略推理中的不同能力,包括长期规划和在不确定条件下的适应性。


通过标准化的对战机制,Kaggle Game Arena 为评估 AI 模型开辟了新基准,关注的已不仅仅是语言或模式识别,而是模型在竞争环境中的决策能力。


原文链接:

https://www.infoq.com/news/2025/09/kaggle-game-arena/

2025-09-17 16:594324

评论

发布
暂无评论
发现更多内容

最佳实践|Apache Pulsar 在拉卡拉的技术实践

Apache Pulsar

开源 架构 中间件 Apache Pulsar 消息系统 Apache 分布式

阿里P6面试官:Redis如何实现分布式锁?锁过期了怎么办?

Java高级开发

redis Java、

2021秋招必刷题:Redis+Mybatis,java使用教程答案

Java 程序员 后端

3分钟快速搞懂Java的桥接方法,Java多态实现原理解析

Java 程序员 后端

09 K8S之对象类资源配置

穿过生命散发芬芳

k8s 11月日更

6种新方法帮你提高Java学习能力,mysql教程入门到精通pdf

Java 程序员 后端

97 道大厂 Java 核心面试题出炉,来试试看你会几道题?

Java 程序员 后端

网络安全:一次艰难的WAF绕过

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

2021技能大赛云计算赛项先电2,java基础入门课后答案清华大学出版社

Java 程序员 后端

2021最新支付宝4面+美团4面+拼多多四面面试总结,狂刷200道数据结构与算法

Java 程序员 后端

OpenYurt 与 FabEdge 集成验证——云边数据面通信初试

阿里巴巴云原生

阿里云 云原生 边缘计算 openyurt FabEdge

2021最新整理美团面经分享:999页Java面试宝典+技术知识点总结(1)

Java 程序员 后端

30天熬夜苦学这本Java后端架构设计精讲,大厂三面架构问题so easy

Java 程序员 后端

5年Java经验字节社招:半月3次面试,成功拿到Offer,大厂Mysql高频面试题

Java 程序员 后端

谈一谈区块链项目使用的数据库LevelDB

Regan Yue

区块链 leveldb 11月日更

2021阿里大牛最新发布:Java高频面试题和核心技术(已涨薪6K

Java 程序员 后端

30岁,转行学编程靠谱吗?,java银行面试的问题

Java 程序员 后端

如何将字符串截取成一个集合

卢卡多多

内容合集 11月日更

7张图带你轻松理解Java 线程安全,java开发架构思想

Java 程序员 后端

2021年高频Java面试题集锦(含答案),华为java面试视频直播

Java 程序员 后端

2021毕业的Java应届生,面试需要掌握哪些技能,才能收割offer

Java 程序员 后端

2021版最新!字节跳动3面+腾讯6面一次过,java高级特性面试题

Java 程序员 后端

2021版阿里Java亿级并发设计手册:基础+数据库,linux服务器开发需要的技术

Java 程序员 后端

@RequestMapping详解,隔壁都馋哭了

Java 程序员 后端

linux之git入门命令

入门小站

Linux

2021春招总结,面了阿里,腾讯,做Java程序员真的没有春天吗

Java 程序员 后端

2021最新整理美团面经分享:999页Java面试宝典+技术知识点总结

Java 程序员 后端

50道Java面试常问的基础知识,虽是基础但是避坑之路可得小心谨慎

Java 程序员 后端

双维度第一!百度智能云领衔中国“AI+工业互联网”市场领导者阵营

百度大脑

人工智能 百度

Flink企业级优化全面总结(3万字长文,15张图)

大数据老哥

95 后程序员一出校门就拿年薪 32 万?,java入门视频教学

Java 程序员 后端

下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?_Google_InfoQ精选文章