写点什么

CodeClash 通过多轮编程竞赛对大型语言模型进行基准测试

作者:Sergio De Simone

  • 2025-11-14
    北京
  • 本文字数:1123 字

    阅读完需:约 4 分钟

大小:569.58K时长:03:14
CodeClash通过多轮编程竞赛对大型语言模型进行基准测试

为了更好地评估大型语言模型(LLM)的编码能力,来自斯坦福、普林斯顿和康奈尔的研究人员开发了一个新的基准测试。这个新的基准测试名为 CodeClash,它让多个LLM在多轮比赛中展开较量,旨在评估在突破定义狭窄的特定任务范畴后,它们实现竞争性高阶目标的能力。

 

研究人员认为,仅在明确指定的任务上评估编码 LLM,例如修复 Bug、实现算法或编写测试,不足以评估它们应对现实世界软件开发挑战的能力。

 

与维护任务不同,开发人员需要实现高阶目标,例如提高用户留存率、增加收入或降低成本。这需要完全不同的能力;工程师必须一层层地将这些目标分解为可操作的步骤,对它们进行优先级排序,并就应采取哪些解决方案作出决策。

 

为了使 LLM 评估过程更接近现实世界中以目标为导向的软件工程,研究人员开发了 CodeClash,这是一个旨在反映开发周期迭代性质的基准测试。在开发过程中,它会根据现实世界的反馈提出、部署和完善变更,然后才进入下一步。在 CodeClash 中,LLM 争相构建能够实现高阶目标的最佳代码库:

 

多个 LM 系统在多轮比赛中构建实现高阶目标的最佳代码库。这些代码库实现的解决方案会在代码竞技场中展开角逐,例如 BattleSnake(基于网格的生存游戏)、Poker(不限注德州扑克)和 RoboCode(坦克大战)。



每一步包括两个阶段:编辑阶段(LLM 编辑代码库)和比赛阶段(代码库将在代码竞技场中相互评估)。代码竞技场根据分数最大化、资源获取或生存等目标来确定胜者。

 

一开始,只为 LM 代理提供简要的环境描述。虽然起始代码库中有竞技场机制、示例机器人和推荐策略这样的信息,但模型必须主动发现它们。

 

每轮结束时,比赛日志都会记录到日志库中,供 LLM 挖掘见解,并为下一轮比赛做好更充分的准备,其目标是全面提升代码库质量,同时增强相对于对手的竞争力。

 

通过这种方法,研究团队进行了 1680 场比赛,涉及 8 个 LLM,包括 Claude Sonnet 4.5、GPT 5、Gemini 2.5 Pro、Qwen3-Coder、Grok Code Fast 等。没有哪个模型在所有竞技场中都始终优于其他模型,不过总体来看,来自 Anthropic 和 OpenAI 的模型稍微有些优势。这在一对一和多代理比赛中都成立,只是在后一个场景中波动性更大些。例如,6 人比赛的获胜者只获得总分数的 28.6%,而在一对一挑战中为 78.0%。

 

研究人员还评估了模型分析其他 LLM 生成的代码库的能力。在这种情况中,GPT 5 被证明是最佳模型,优于 Claude Sonnet 4.5。然而,分析表明,检查对手的代码并不会自动转化为竞争优势。

 

尽管这项研究很有说服力,但研究人员承认,当前的实验环境规模还小于典型的现实系统。因此,未来研究将致力于处理更庞大的代码库并支持多重竞争目标。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:https://www.infoq.com/news/2025/11/codeclash-competitive-llm-coding/

2025-11-14 11:005259

评论

发布
暂无评论

Hoo虎符研究院 | 投资前沿——过去一周顶级投资机构动向

区块链前沿News

虎符 Hoo 虎符交易所 区块链投资

模块五

Only

架构实战营 「架构实战营」

zip文件自动打包

你?

为什么您的企业需要移动CRM系统

低代码小观

移动 CRM CRM系统 客户关系管理系统 企业管理工具

云原生训练营 毕业总结

张大彪

云原生

当使用Vue2+Babel时,如何实现组件重新渲染

吴脑的键客

Vue babel

【架构实战营】模块九作业

liu🍊

5Why根因分析法:通过好问题引出一个好答案

石云升

1月月更 分析方法

ReactNative进阶(十九):React Native 按钮 Touchable 系列组件使用详解

No Silver Bullet

​React Native 1月月更 Touchable

基于Mysql,ssm食材采购系统

叫练

ssm 餐厅采购

手把手教程|通过部署 Apache Superset 实现 Amazon S3 的数据可视化

亚马逊云科技 (Amazon Web Services)

analytics

一条 Git 命令减少了一般存储空间,我的服务器在偷着笑

沉默王二

一文带你快速了解 Java 线上问题快速诊断神器 Arthas

zuozewei

性能测试 Java性能 性能分析 Arthas 1月月更

低代码实现探索(二十)功能的路径

零道云-混合式低代码平台

架构实战营 第 4 期 模块五作业

架构实战营 模块五 「架构实战营」

特聘专家朱嘉明:2022,数字经济迈入历史新阶段

CECBC

hw9-毕业项目设计

WWH

架构实战营

架构实战营-毕业设计

21°Char

架构实战营模块九作业

孙志强

架构实战营

架构训练营 毕业设计

吴霏

架构训练营 「架构实战营」

电商秒杀系统设计

天天向上

架构实战营

Go 语言快速入门指南:Go 指针

宇宙之一粟

指针 Go 语言 1月月更

物联网场景中灵活实施对设备的控制管理

亚马逊云科技 (Amazon Web Services)

loT

物联网场景中灵活实施对设备的控制管理

亚马逊云科技 (Amazon Web Services)

loT

16 Prometheus之Exporter详解

穿过生命散发芬芳

Prometheus 1月月更

设计电商秒杀系统

Steven

架构实战营

设计电商秒杀系统

Mars

架构实战营 「架构实战营」

架构实战营-毕业设计

瓜子葫芦侠

「架构实战营」

毕业设计

Geek_cb2b43

低代码实现探索(二十一)微流动作返回值类型

零道云-混合式低代码平台

Three.js 入门指南

devpoint

WebGL 3D渲染 three.js 1月月更

CodeClash通过多轮编程竞赛对大型语言模型进行基准测试_AI&大模型_InfoQ精选文章