写点什么

Code Arena 正式发布,成为现实世界 AI 编程性能测试的新基准

作者:Robert Krzaczyński

  • 2025-11-23
    北京
  • 本文字数:925 字

    阅读完需:约 3 分钟

大小:439.74K时长:02:30
Code Arena正式发布,成为现实世界AI编程性能测试的新基准

LMArena 推出了 Code Arena,这是一个新的评估平台,用于衡量 AI 模型在构建完整应用程序时的性能,而不仅仅是生成代码片段。它注重代理行为,允许模型在模拟实际开发工作流的受控环境中规划、搭建框架、迭代和完善代码。

 

Code Arena 不只是检查代码能否通过编译,还检查模型如何推理任务、管理文件、响应反馈,以及逐步构建功能性 Web 应用。每一个动作都会被记录,每一次交互都可以复现,每一个构建都可以全面检查。在当前多数基准测试仍依赖于有限测试用例的情况下,其目标是为这个领域注入透明度与科学严谨性。

 

该平台引入了多项特性,包括持久会话、基于结构化工具的执行、在应用程序构建时实时渲染,以及一个统一的工作流——将提示、生成和比较整合到单个环境中。性能评估遵循可复现的路径——从最初的提示到文件编辑再到最终渲染——并结合结构化人工判断,对功能性、可用性和保真度进行评分。

 

Code Arena 还推出了一个全新的排行榜,专门为其升级后的评分方法而设计。早期的 WebDev Arena 数据尚未合并进来,目的是使评估结果可以反映一致的环境和评分标准。其团队表示,为了使性能差异更容易解释,该平台现在已经发布了置信区间以及评分者间信度。

 

与早期的 Arena 项目一样,该项目仍然是以社区参与为核心。开发人员探索实时输出,对哪些实现效果更好进行投票,并查看完整的项目树。Arena Discord 会继续暴露异常、提出任务并推动系统演进。其中一项即将推出的更新是引入多文件 React 项目,使评估更贴近真实工程结构,而非一次性原型。

 

本次发布获得了人们的积极响应。在 X 上,一位评论者写道

这重新定义了 AI 性能基准测试。

 

在 LMArena 社区内,这次发布推动了实践性实验的开展。在庆祝本次发布的 LinkedIn 博文中,来自 Arena 团队的 Justin Keoninh

新发布的代码竞技场是一个新的评估平台,用于测试模型代理在构建现实世界应用程序和网站时的编码能力。并排比较不同的模型,看看它们是如何设计和编码的。找出哪个模型实际上最适合你,而不仅仅是哪个最热门。

 

随着代理编码模型的应用越来越普遍,Code Arena 将自己定位为一个透明、可检查的环境,允许对其能力进行实时评估。

 

原文链接:

https://www.infoq.com/news/2025/11/monzo-real-time-fraud-detection/

2025-11-23 08:003

评论

发布
暂无评论

消息队列架构设计文档

高亮

架构实战营

微信标准版交易组件使用教程

frank-say

微信小程序 微信 大前端

拜托阿里老表爆肝整理10W字Java高级面试精华!帮我成功入职字节

比伯

Java 编程 架构 互联网 计算机

模模搭古城搭建学习笔记4:完结篇

ThingJS数字孪生引擎

物联网 3D可视化 数字孪生

硬核资源!清华博士的Spring Boot中AOP与SpEL笔记,码农:膜拜

牛哄哄的java大师

Java springboot spring aop

Yarn的架构和原理

五分钟学大数据

hadoop YARN 5月日更

技术干货 | 轻松两步完成向 mPaaS 小程序传递启动参数

蚂蚁集团移动开发平台 mPaaS

ios android 移动开发 mPaaS

React Hook | 必 学 的 9 个 钩子

程序员海军

最佳实践 方法论 大前端 React Hooks 引航计划

消息队列详细架构设计

Lane

变电站无人值守也能运筹帷幄?数据这样监控,时效节省高达90%

一只数据鲸鱼

数据可视化 3D可视化 智慧电网 变电站

撸完腾讯T4大佬整理的ThreadLocal笔记,解决内存泄漏只是小儿科

牛哄哄的java大师

Java ThreadLocal

强推!Java大牛熬夜一周梳理的 Spring IOC笔记,收藏一波

飞飞JAva

Java 容器

数据结构与算法必知基础知识

bigsai

数据结构 算法

zookeeper的watch机制

大数据技术指南

zookeeper 5月日更

直呼内行!靠着这份阿里10w字面试总结,我成功收到了4个大厂offer

Java 程序员 架构 面试

☕【Java技术之旅】来啊!带你认识一下String字符串

码界西柚

JVM string 5月日更

这份Mybaits缓存机制总结,阿里大佬看完直呼牛批,到底有多强?

飞飞JAva

大促秒杀场景技术方案

Mars

秒杀

iOS 面试策略之语言工具-Swift vs. Objective-C

iOSer

ios objective-c swift 面试 移动开发

新一代运营保障体系探索

鲸品堂

运营 解决方案 运营商 通信运营商

大厂常问iOS面试题汇总!

iOS猿_员

ios 面试 ios开发

在校生丨五面丨拿到阿里offer,你还在边“摸鱼”边抱怨“行业内卷”吗?

Java架构师迁哥

Linux 的 IO 通信 以及 Reactor 线程模型详解

Linux服务器开发

reactor 后端 多线程 Linux服务器开发 网络io

敏捷MVP面面观

禅道项目管理

敏捷 MVP

软件质量指标自动度量方法

鸿渐科技_mason

代码质量 源代码 软件安全 软件质量指标 鸿渐科技

量化AI智能交易软件,马丁策略交易

详解 WebRTC 传输安全机制:一文读懂 DTLS 协议

阿里云CloudImagine

阿里云 WebRTC 通信协议 视频云 流媒体传输

直呼内行!阿里大佬离职带出内网专属“高并发系统设计”学习笔记

Java 程序员 架构 面试

【LeetCode】数组异或操作Java题解

Albert

算法 LeetCode 5月日更

企业密码管理为何仍然是一个难题?

龙归科技

密码学 密码 弱密码

消息队列架构设计文档

方堃

Code Arena正式发布,成为现实世界AI编程性能测试的新基准_AI&大模型_InfoQ精选文章