写点什么

下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?

作者:Daniel Dominguez

  • 2025-09-17
    北京
  • 本文字数:993 字

    阅读完需:约 3 分钟

大小:470.54K时长:02:40
下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?

Kaggle 与 Google DeepMind 合作推出了 Kaggle Game Arena,这一平台通过战略类游戏对人工智能模型进行对战评测。


该系统提供了一个受控环境,让不同模型直接对战。每场比赛都会严格遵循所选游戏的规则,系统会记录比赛结果,并据此形成排行榜。为了保证评测的公平性,平台采用全对全(all-play-all)的赛制,也就是每个模型会多次与其他所有模型对战,从而减少随机因素的干扰,使结果在统计上更加可靠。


Game Arena 依赖开源组件。平台已将游戏运行环境及规则执行、模型对接等控制模块全面开源。这一设计方便开发者和研究人员进行检查、复现或扩展。


首批参赛的八个主流 AI 模型包括:Anthropic 的 Claude Opus 4、DeepSeek 的 DeepSeek-R1、Google 的 Gemini 2.5 Pro 与 Gemini 2.5 Flash、Moonshot AI 的 Kimi 2-K2-Instruct、OpenAI 的 o3 和 o4-mini,以及 xAI 的 Grok 4


与其他主要集中在语言任务、图像分类或编程挑战的 AI 测评平台相比,Kaggle Game Arena 将关注点转向“在规则与约束下的决策力”。无论是国际象棋,还是未来即将上线的其他游戏,都突出推理、规划与对抗适应性,为目前以静态输出为主的排行榜增添了新的参照维度。


研究人员的评论指出,这类基准测试有助于发现 AI 系统在传统数据集之外的优势与不足。一部分观点认为,游戏提供了一种开放、可反复验证的手段;但也有人提醒,受控环境并不能完全还原真实世界的复杂决策。


AI 爱好者 Sebastian Zabala 在平台上发文表示:

简直炸裂!国际象棋是完美的开局——等不及要看顶级 AI 在实战对抗中的表现。


AI 布道者 Koho Okada 则分享道:

这可能真的会改写我们评估 AI 智能的方式——既专业又好玩!


而 Kaggle 用户 Sourabh Joshi 补充说:

下棋是看局面,AI 是看能力。作为一名棋手,我认为 Kaggle Game Arena 是测试泛化性、效率和推理力的理想战场。就像棋局能显露大师的深度与思路,这个平台将揭示大语言模型的真正实力。我对此感到无比期待。


据 Kaggle 与 DeepMind 表示,平台并不会局限于国际象棋。未来,Game Arena 将扩展到卡牌游戏和数字游戏等更多类型,用以测试 AI 在战略推理中的不同能力,包括长期规划和在不确定条件下的适应性。


通过标准化的对战机制,Kaggle Game Arena 为评估 AI 模型开辟了新基准,关注的已不仅仅是语言或模式识别,而是模型在竞争环境中的决策能力。


原文链接:

https://www.infoq.com/news/2025/09/kaggle-game-arena/

2025-09-17 16:595

评论

发布
暂无评论
发现更多内容

项目复盘之道:Review制度与关键内容深度解析

测吧(北京)科技有限公司

测试

项目排期战略:预估测试时间、灵活沟通工期不合理

测吧(北京)科技有限公司

测试

准确率90%+!大模型会话洞察平台来了

中关村科金

大模型 会话洞察

Bug管理实操指南:Jira vs. Redmine vs. TestLink vs. 禅道

测吧(北京)科技有限公司

测试

Redmine在项目管理中的应用及优势

测吧(北京)科技有限公司

测试

签约勃肯BIRKENSTOCK 第七在线助力智能商品数字化管理

第七在线

一文看懂华为云IoT第三方物联网业务无感迁移方案

华为云开发者联盟

后端 物联网 华为云 华为云IoT 华为云开发者联盟

【教程】Objective-C 性能监控

每日一题:LeetCode-123. 买卖股票的最佳时机 III

Geek_4z9ami

面试 算法 LeetCode 动态规划 滚动数组

项目认证体系全览:PMP、CMMI、ISTQB、CSTQB解读

测吧(北京)科技有限公司

测试

项目启动黄金法则:Kickoff会议、测试关注点、项目角色

测吧(北京)科技有限公司

测试

常用流程管理平台综合比较

测吧(北京)科技有限公司

测试

阿里云效平台在项目流程中的特色与应用

测吧(北京)科技有限公司

测试

喜讯!云起无垠上榜《CCSIP 2023中国网络安全行业全景册(第六版)》

云起无垠

祝福加载中,签收你的新年好“饰”! 老庙与你共启“富余年”

科技大数据

融云连续多年展现统治力,「IM 一哥」的通关密码

融云 RongCloud

Jira项目进度管理深度解析:里程碑、燃尽图、负责人跟进

测吧(北京)科技有限公司

测试

测试用例管理工具对比:Redmine vs. TestLink vs. 禅道

测吧(北京)科技有限公司

测试

开发者的口碑之选!融云获 CSDN、InfoQ 年度开发者影响力&技术生态构建奖

融云 RongCloud

IPQ6010 and QCN9074: innovative WiFi partnership to create the ultimate network experience

wallysSK

需求管理成功指南:产品经理沟通、解决不规范与变更频繁

测吧(北京)科技有限公司

测试

飞书OKR管理系统:打造高效团队目标达成的利器

测吧(北京)科技有限公司

测试

大模型技术驱动直播变革,开启全新互动体验!

中关村科金

音视频 直播 大模型

京东物流基于 StarRocks 的数据分析平台建设

StarRocks

数据仓库 StarRocks 数据分析平台

测试用例管理精要:Jira vs. Redmine vs. TestLink vs. 禅道

测吧(北京)科技有限公司

测试

GitLab与代码管理的高效协同:流程平台的应用与优势

测吧(北京)科技有限公司

测试

下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?_Google_InfoQ精选文章