Windsurf 推出 Arena Mode，可在开发过程中对比 AI 模型

Windsurf 在其 IDE 中推出了 Arena Mode，该模式支持开发者在处理实际编码任务时并排对比多款大语言模型。该功能旨在让用户在现有开发环境中直接评估模型，而非依赖公共基准测试或外部评估网站。

Arena Mode 可针对同一提示词并行运行两个 Cascade 智能体，并在对话过程中隐藏底层模型的真实身份。开发者可通过常规工作流与两个智能体交互，包括访问代码库、工具及上下文信息。在查看输出结果后，用户可选择表现更优的响应，这些投票将用于计算模型排名，结果会同时计入基于个人投票的个人排行榜和汇总 Windsurf 用户群数据的全球排行榜。

据 Windsurf 称，该方法旨在解决现有模型对比系统的诸多局限，例如测试缺乏真实项目背景、易受表面输出风格干扰，以及无法反映不同任务、编程语言或工作流之间的差异。Windsurf 希望获取更贴近日常开发工作的评估结果，评估场景包括调试、功能开发与代码理解。

Arena Mode 支持对特定模型进行测试，或从预设分组中选择对比对象，如快速模型与高性能模型。开发者可让后续提示词在多个智能体间保持同步，或让对话独立分叉。一旦得到首选输出，即可结束会话并记录排名。

Arena Mode 目前限时免费开放所有对战组，后续将公布评测结果，并逐步加入更多模型。Windsurf 还计划对系统进行扩展，推出按任务类型、编程语言划分的更细粒度排行榜，并可能为大型机构提供团队级评估功能。

Arena Mode 的发布在社区引发了褒贬不一的反响，既有认可，也存在一些质疑。X 平台上的用户认可这种贴近真实场景的基准测试方式，但同时也对 Token 消耗与实际实用性表达了担忧。

开发者关系负责人 @nnennahacks 分享道：

你的代码库就是基准。够硬核！

同时用户 @BigWum 评论道：

真是个消耗更多 Token 的好方法。

开发者 AI 领域的其他几款工具也在探索相关理念，只是集成程度与侧重点各不相同。Dpaia Arena 等公共评估平台支持用户并排对比模型输出，但通常基于简短、脱离上下文的提示词，而非真实开发环境。一些 IDE 集成助手，包括 GitHub Copilot 和 Cursor，可在模型间切换或执行后台评估，但目前并未将显式、用户驱动的正面对比作为核心工作流。其他新兴编码助手则侧重于按任务类型进行多模型调度或自动选模，而非向开发者提供直观的模型直接对比。

除 Arena Mode 外，Windsurf 还宣布推出新的 Plan Mode。Plan Mode 专注于代码生成前的任务规划，提出澄清性问题并生成结构化计划，然后由 Cascade 智能体执行。该功能旨在帮助开发者在执行代码相关任务前，预先定义上下文与约束条件。

原文链接：

https://www.infoq.com/news/2026/02/windsurf-arena-mode/

创作场景

Windsurf 推出 Arena Mode，可在开发过程中对比 AI 模型