
LMArena 推出了 Code Arena,这是一个新的评估平台,用于衡量 AI 模型在构建完整应用程序时的性能,而不仅仅是生成代码片段。它注重代理行为,允许模型在模拟实际开发工作流的受控环境中规划、搭建框架、迭代和完善代码。
Code Arena 不只是检查代码能否通过编译,还检查模型如何推理任务、管理文件、响应反馈,以及逐步构建功能性 Web 应用。每一个动作都会被记录,每一次交互都可以复现,每一个构建都可以全面检查。在当前多数基准测试仍依赖于有限测试用例的情况下,其目标是为这个领域注入透明度与科学严谨性。
该平台引入了多项特性,包括持久会话、基于结构化工具的执行、在应用程序构建时实时渲染,以及一个统一的工作流——将提示、生成和比较整合到单个环境中。性能评估遵循可复现的路径——从最初的提示到文件编辑再到最终渲染——并结合结构化人工判断,对功能性、可用性和保真度进行评分。
Code Arena 还推出了一个全新的排行榜,专门为其升级后的评分方法而设计。早期的 WebDev Arena 数据尚未合并进来,目的是使评估结果可以反映一致的环境和评分标准。其团队表示,为了使性能差异更容易解释,该平台现在已经发布了置信区间以及评分者间信度。
与早期的 Arena 项目一样,该项目仍然是以社区参与为核心。开发人员探索实时输出,对哪些实现效果更好进行投票,并查看完整的项目树。Arena Discord 会继续暴露异常、提出任务并推动系统演进。其中一项即将推出的更新是引入多文件 React 项目,使评估更贴近真实工程结构,而非一次性原型。
本次发布获得了人们的积极响应。在 X 上,一位评论者写道:
这重新定义了 AI 性能基准测试。
在 LMArena 社区内,这次发布推动了实践性实验的开展。在庆祝本次发布的 LinkedIn 博文中,来自 Arena 团队的 Justin Keoninh 说:
新发布的代码竞技场是一个新的评估平台,用于测试模型代理在构建现实世界应用程序和网站时的编码能力。并排比较不同的模型,看看它们是如何设计和编码的。找出哪个模型实际上最适合你,而不仅仅是哪个最热门。
随着代理编码模型的应用越来越普遍,Code Arena 将自己定位为一个透明、可检查的环境,允许对其能力进行实时评估。
原文链接:
https://www.infoq.com/news/2025/11/monzo-real-time-fraud-detection/







评论