写点什么

Code Arena 正式发布,成为现实世界 AI 编程性能测试的新基准

作者:Robert Krzaczyński

  • 2025-11-23
    北京
  • 本文字数:925 字

    阅读完需:约 3 分钟

大小:439.74K时长:02:30
Code Arena正式发布,成为现实世界AI编程性能测试的新基准

LMArena 推出了 Code Arena,这是一个新的评估平台,用于衡量 AI 模型在构建完整应用程序时的性能,而不仅仅是生成代码片段。它注重代理行为,允许模型在模拟实际开发工作流的受控环境中规划、搭建框架、迭代和完善代码。

 

Code Arena 不只是检查代码能否通过编译,还检查模型如何推理任务、管理文件、响应反馈,以及逐步构建功能性 Web 应用。每一个动作都会被记录,每一次交互都可以复现,每一个构建都可以全面检查。在当前多数基准测试仍依赖于有限测试用例的情况下,其目标是为这个领域注入透明度与科学严谨性。

 

该平台引入了多项特性,包括持久会话、基于结构化工具的执行、在应用程序构建时实时渲染,以及一个统一的工作流——将提示、生成和比较整合到单个环境中。性能评估遵循可复现的路径——从最初的提示到文件编辑再到最终渲染——并结合结构化人工判断,对功能性、可用性和保真度进行评分。

 

Code Arena 还推出了一个全新的排行榜,专门为其升级后的评分方法而设计。早期的 WebDev Arena 数据尚未合并进来,目的是使评估结果可以反映一致的环境和评分标准。其团队表示,为了使性能差异更容易解释,该平台现在已经发布了置信区间以及评分者间信度。

 

与早期的 Arena 项目一样,该项目仍然是以社区参与为核心。开发人员探索实时输出,对哪些实现效果更好进行投票,并查看完整的项目树。Arena Discord 会继续暴露异常、提出任务并推动系统演进。其中一项即将推出的更新是引入多文件 React 项目,使评估更贴近真实工程结构,而非一次性原型。

 

本次发布获得了人们的积极响应。在 X 上,一位评论者写道

这重新定义了 AI 性能基准测试。

 

在 LMArena 社区内,这次发布推动了实践性实验的开展。在庆祝本次发布的 LinkedIn 博文中,来自 Arena 团队的 Justin Keoninh

新发布的代码竞技场是一个新的评估平台,用于测试模型代理在构建现实世界应用程序和网站时的编码能力。并排比较不同的模型,看看它们是如何设计和编码的。找出哪个模型实际上最适合你,而不仅仅是哪个最热门。

 

随着代理编码模型的应用越来越普遍,Code Arena 将自己定位为一个透明、可检查的环境,允许对其能力进行实时评估。

 

原文链接:

https://www.infoq.com/news/2025/11/monzo-real-time-fraud-detection/

2025-11-23 08:004743

评论

发布
暂无评论

Cadence Allegro如何通过Excel表格创建元器件?

华秋PCB

科普 硬件 元器件

GitHub神坛变动!10W字Spring Cloud Alibaba笔记,30W星标登顶第一

Java 微服务 Spring Cloud

ChatGPT被开发者嫌弃?真正的用户群体出现

Onegun

人工智能 ChatGPT

横空出世!IDEA 版 API 接口神器来了,一键生成文档!

Liam

Java 后端 IDEA Java 分布式 API文档

【漏洞发现】|多个严重CVE漏洞被发现,系内存类安全漏洞

云起无垠

漏洞 Fuzzing

设计原则 — L 里氏替换原则

Lemoon Can

SOLID 设计原则 SOLID原则 里氏替换原则

从混沌到清晰,阿里全球商品类目域建设思考

阿里技术

全球化技术能力

数仓专家面对面 | 为什么我选择GaussDB(DWS)

华为云开发者联盟

数据库 后端 华为云 企业号 2 月 PK 榜 华为云开发者联盟

AI不仅造就了ChatGPT,也重新定义了模糊测试

云起无垠

模糊测试

要想随时编码即刻创新,这个工具你需要一个

华为云开发者联盟

云计算 后端 华为云 企业号 2 月 PK 榜 华为云开发者联盟

Java实现Http多次请求复用同一连接

Java HTTP

万物皆可集成资源包!低代码集成系列一网打尽

葡萄城技术团队

一文详解SpEL表达式注入漏洞

华为云开发者联盟

开发 华为云 企业号 2 月 PK 榜 华为云开发者联盟

实用指南:如何在Anolis OS上轻松使用 Kata 安全容器?

OpenAnolis小助手

容器 安全 操作系统 龙蜥社区 kata

基于图数据库 NebulaGraph 实现的欺诈检测方案及代码示例

NebulaGraph

图数据库 反欺诈 安全风控

openGauss内核分析(四):查询重写

C#/VB.NET 如何在 Word 文档中添加页眉和页脚

在下毛毛雨

C# .net word文档 页眉页脚

【ECCV 2022】TeSTRa:稳定的流式视频识别

Zilliz

计算机视觉

国内开源生态发展现状:开源基金会与开源组织 | 雨林开源行

开源雨林

Linux 开源 基金会 OSPO

【我和openGauss的故事】openGauss的WDR报告解读

ChatGPT搜索与推荐之间的匹配问题

图灵教育

搜索引擎 深度学习‘’ ChatGPT

SpringBoot与Loki的那些事

Java Spring Boot 框架

如何使用 NFTScan NFT API 检索单个 NFT 资产

NFT Research

API NFT

openGauss社区十一月运作报告

存储拆分后,如何解决唯一主键问题?

小小怪下士

Java 程序员 后端 uuid

阿里云 EMAS & 魔笔 :1月产品动态

移动研发平台EMAS

阿里云 App 低代码 移动研发

云小课|MRS基础原理之Flink组件介绍

华为云开发者联盟

大数据 华为云 企业号 2 月 PK 榜 华为云开发者联盟

兴业银行正式加入openGauss社区

Code Arena正式发布,成为现实世界AI编程性能测试的新基准_AI&大模型_InfoQ精选文章