CodeClash通过多轮编程竞赛对大型语言模型进行基准测试_AI&大模型_InfoQ精选文章



 写点什么

登录/注册



大小：569.58K时长：03:14

CodeClash通过多轮编程竞赛对大型语言模型进行基准测试

为了更好地评估大型语言模型（LLM）的编码能力，来自斯坦福、普林斯顿和康奈尔的研究人员开发了一个新的基准测试。这个新的基准测试名为 CodeClash，它让多个LLM在多轮比赛中展开较量，旨在评估在突破定义狭窄的特定任务范畴后，它们实现竞争性高阶目标的能力。

研究人员认为，仅在明确指定的任务上评估编码 LLM，例如修复 Bug、实现算法或编写测试，不足以评估它们应对现实世界软件开发挑战的能力。

与维护任务不同，开发人员需要实现高阶目标，例如提高用户留存率、增加收入或降低成本。这需要完全不同的能力；工程师必须一层层地将这些目标分解为可操作的步骤，对它们进行优先级排序，并就应采取哪些解决方案作出决策。

为了使 LLM 评估过程更接近现实世界中以目标为导向的软件工程，研究人员开发了 CodeClash，这是一个旨在反映开发周期迭代性质的基准测试。在开发过程中，它会根据现实世界的反馈提出、部署和完善变更，然后才进入下一步。在 CodeClash 中，LLM 争相构建能够实现高阶目标的最佳代码库：

多个 LM 系统在多轮比赛中构建实现高阶目标的最佳代码库。这些代码库实现的解决方案会在代码竞技场中展开角逐，例如 BattleSnake（基于网格的生存游戏）、Poker（不限注德州扑克）和 RoboCode（坦克大战）。

每一步包括两个阶段：编辑阶段（LLM 编辑代码库）和比赛阶段（代码库将在代码竞技场中相互评估）。代码竞技场根据分数最大化、资源获取或生存等目标来确定胜者。

一开始，只为 LM 代理提供简要的环境描述。虽然起始代码库中有竞技场机制、示例机器人和推荐策略这样的信息，但模型必须主动发现它们。

每轮结束时，比赛日志都会记录到日志库中，供 LLM 挖掘见解，并为下一轮比赛做好更充分的准备，其目标是全面提升代码库质量，同时增强相对于对手的竞争力。

通过这种方法，研究团队进行了 1680 场比赛，涉及 8 个 LLM，包括 Claude Sonnet 4.5、GPT 5、Gemini 2.5 Pro、Qwen3-Coder、Grok Code Fast 等。没有哪个模型在所有竞技场中都始终优于其他模型，不过总体来看，来自 Anthropic 和 OpenAI 的模型稍微有些优势。这在一对一和多代理比赛中都成立，只是在后一个场景中波动性更大些。例如，6 人比赛的获胜者只获得总分数的 28.6%，而在一对一挑战中为 78.0%。

研究人员还评估了模型分析其他 LLM 生成的代码库的能力。在这种情况中，GPT 5 被证明是最佳模型，优于 Claude Sonnet 4.5。然而，分析表明，检查对手的代码并不会自动转化为竞争优势。

尽管这项研究很有说服力，但研究人员承认，当前的实验环境规模还小于典型的现实系统。因此，未来研究将致力于处理更庞大的代码库并支持多重竞争目标。

声明：本文为 InfoQ 翻译，未经许可禁止转载。

原文链接：https://www.infoq.com/news/2025/11/codeclash-competitive-llm-coding/

评论

发布

暂无评论

VMware vSphere 9.0 下载 - 企业级工作负载平台

java哪有这细糠啊，PHP是世界上最好的语言！

程序员郭顺发

龙蜥开发者说：200+PR 背后的成长，且看他在社区的开源故事 | 第 31 期

OpenAnolis小助手

操作系统龙蜥社区龙蜥开发者说

AI 应用大起底：从生活场景到行业局限全知晓

#人工智能 AI 大底座人工智能、

重磅揭秘！AI 搜索的 “链接是真，内容是编” 迷惑术！

高效缓存的10条军规

电子尖叫食人鱼

天润融通：Agent驱动的人效革命，引领客户服务智能化转型

Nessus Professional 10.8 | 10.6 Auto Installer for Windows (updated May 2025)

硬核剧透！龙蜥社区系统运维联盟 MeetUp 全议程来啦

OpenAnolis小助手

AI 操作系统系统运维龙蜥社区龙蜥meetup

Nessus Professional 10.8 | 10.6 Auto Installer for RHEL 9, AlmaLinux 9, Rocky Linux 9 (updated May 2025)

实战：Dify智能体+Java=自动化运营工具！

01.数组深入浅出分析

重拾童年，用 CodeBuddy 做自己的快乐创作者

CodeBuddy首席试玩官

Nessus Professional 10.8 | 10.6 Auto Installer for macOS Sequoia (updated May 2025)

Nessus Professional 10.8 | 10.6 Auto Installer for Ubuntu 24.04 (updated May 2025)

AI 多 Agent 开发未来：iVX IDE 的 AST 架构与主流产品的模型优化路径

代码制造者

VMware vCenter Server 9.0 下载 - 集中管理 vSphere 环境

VMware ESXi 9.0 下载 - 领先的裸机 Hypervisor

龙蜥操作系统衍生版 KOS 助力云天化石化打造卓越智能工厂 | 龙蜥案例

OpenAnolis小助手

操作系统龙蜥社区龙蜥案例 Anolis OS

秒懂 AI Agent：概念、能力与智能体差异全解析

agent #人工智能人工智能、

鸿蒙仓颉开发语言实战教程：实现商城应用首页

腾讯推出端到端语音通话模型「混元 Voice」，1.6 秒响应；实时转录工具集体爆发丨日报

小红书私信如何高效管理？天润融通一站式客服解决方案来了！

阿里云 Serverless 助力海牙湾构建弹性、高效、智能的 AI 数字化平台

阿里巴巴云原生

阿里云 Serverless 云原生

AlmaLinux 9.6 正式版发布 - RHEL 二进制兼容免费发行版

天润融通助力卡尔蔡司，用可视化服务提升客户体验

聊点技术 | PodMonitor与ServiceMonitor：Kubernetes 监控利器

深度剖析：AI 搜索的幻觉引用，为何如此难以察觉？

大模型幻觉 #大模型

Cosmos on PAI系列一：PAI-Model Gallery云上一键部署NVIDIA Cosmos Reason-1

阿里云大数据AI技术

人工智能应用开发 Cosmos 模型服务 PAI

MySQL 可观测性最佳实践