Windsurf 在其 IDE 中推出了 Arena Mode,该模式支持开发者在处理实际编码任务时并排对比多款大语言模型。该功能旨在让用户在现有开发环境中直接评估模型,而非依赖公共基准测试或外部评估网站。
Arena Mode 可针对同一提示词并行运行两个 Cascade 智能体,并在对话过程中隐藏底层模型的真实身份。开发者可通过常规工作流与两个智能体交互,包括访问代码库、工具及上下文信息。在查看输出结果后,用户可选择表现更优的响应,这些投票将用于计算模型排名,结果会同时计入基于个人投票的个人排行榜和汇总 Windsurf 用户群数据的全球排行榜。
据 Windsurf 称,该方法旨在解决现有模型对比系统的诸多局限,例如测试缺乏真实项目背景、易受表面输出风格干扰,以及无法反映不同任务、编程语言或工作流之间的差异。Windsurf 希望获取更贴近日常开发工作的评估结果,评估场景包括调试、功能开发与代码理解。
Arena Mode 支持对特定模型进行测试,或从预设分组中选择对比对象,如快速模型与高性能模型。开发者可让后续提示词在多个智能体间保持同步,或让对话独立分叉。一旦得到首选输出,即可结束会话并记录排名。
Arena Mode 目前限时免费开放所有对战组,后续将公布评测结果,并逐步加入更多模型。Windsurf 还计划对系统进行扩展,推出按任务类型、编程语言划分的更细粒度排行榜,并可能为大型机构提供团队级评估功能。
Arena Mode 的发布在社区引发了褒贬不一的反响,既有认可,也存在一些质疑。X 平台上的用户认可这种贴近真实场景的基准测试方式,但同时也对 Token 消耗与实际实用性表达了担忧。
开发者关系负责人 @nnennahacks 分享道:
你的代码库就是基准。够硬核!
同时用户 @BigWum 评论道:
真是个消耗更多 Token 的好方法。
开发者 AI 领域的其他几款工具也在探索相关理念,只是集成程度与侧重点各不相同。Dpaia Arena 等公共评估平台支持用户并排对比模型输出,但通常基于简短、脱离上下文的提示词,而非真实开发环境。一些 IDE 集成助手,包括 GitHub Copilot 和 Cursor,可在模型间切换或执行后台评估,但目前并未将显式、用户驱动的正面对比作为核心工作流。其他新兴编码助手则侧重于按任务类型进行多模型调度或自动选模,而非向开发者提供直观的模型直接对比。
除 Arena Mode 外,Windsurf 还宣布推出新的 Plan Mode。Plan Mode 专注于代码生成前的任务规划,提出澄清性问题并生成结构化计划,然后由 Cascade 智能体 执行。该功能旨在帮助开发者在执行代码相关任务前,预先定义上下文与约束条件。
原文链接:





