Code Arena正式发布，成为现实世界AI编程性能测试的新基准

LMArena 推出了 Code Arena，这是一个新的评估平台，用于衡量 AI 模型在构建完整应用程序时的性能，而不仅仅是生成代码片段。它注重代理行为，允许模型在模拟实际开发工作流的受控环境中规划、搭建框架、迭代和完善代码。

Code Arena 不只是检查代码能否通过编译，还检查模型如何推理任务、管理文件、响应反馈，以及逐步构建功能性 Web 应用。每一个动作都会被记录，每一次交互都可以复现，每一个构建都可以全面检查。在当前多数基准测试仍依赖于有限测试用例的情况下，其目标是为这个领域注入透明度与科学严谨性。

该平台引入了多项特性，包括持久会话、基于结构化工具的执行、在应用程序构建时实时渲染，以及一个统一的工作流——将提示、生成和比较整合到单个环境中。性能评估遵循可复现的路径——从最初的提示到文件编辑再到最终渲染——并结合结构化人工判断，对功能性、可用性和保真度进行评分。

Code Arena 还推出了一个全新的排行榜，专门为其升级后的评分方法而设计。早期的 WebDev Arena 数据尚未合并进来，目的是使评估结果可以反映一致的环境和评分标准。其团队表示，为了使性能差异更容易解释，该平台现在已经发布了置信区间以及评分者间信度。

与早期的 Arena 项目一样，该项目仍然是以社区参与为核心。开发人员探索实时输出，对哪些实现效果更好进行投票，并查看完整的项目树。Arena Discord 会继续暴露异常、提出任务并推动系统演进。其中一项即将推出的更新是引入多文件 React 项目，使评估更贴近真实工程结构，而非一次性原型。

本次发布获得了人们的积极响应。在 X 上，一位评论者写道：

这重新定义了 AI 性能基准测试。

在 LMArena 社区内，这次发布推动了实践性实验的开展。在庆祝本次发布的 LinkedIn 博文中，来自 Arena 团队的 Justin Keoninh 说：

新发布的代码竞技场是一个新的评估平台，用于测试模型代理在构建现实世界应用程序和网站时的编码能力。并排比较不同的模型，看看它们是如何设计和编码的。找出哪个模型实际上最适合你，而不仅仅是哪个最热门。

随着代理编码模型的应用越来越普遍，Code Arena 将自己定位为一个透明、可检查的环境，允许对其能力进行实时评估。

原文链接：

Code Arena 正式发布，成为现实世界 AI 编程性能测试的新基准