
Windsurf 推出首批 SWE-1 模型,这些模型专为支持软件工程的全流程任务提供支持,不仅限于代码生成。该系列包括三个模型:SWE-1、SWE-1-lite 和 SWE-1-mini,每个模型都针对特定场景进行了设计。
SWE-1 专注于工具调用推理,性能与 Claude 3.5 Sonnet 相当,但在运营成本上更具优势。SWE-1-lite 替代了之前的 Cascade Base 模型,不仅提升了质量,而且对所有用户全面开放,无任何使用限制。SWE-1-mini 是一个紧凑型、高速的模型,在 Windsurf Tab 环境中启用了被动预测功能。
SWE 模型通过引入流程感知(flow awareness)框架来解决现有编码模型的局限性。这个框架使模型能够推理长期、多任务表面的工程任务,即便这些任务处于不完整或不断演变的状态。这些模型基于用户在 Windsurf 自有编辑器中的互动数据进行训练,并结合了来自终端、浏览器和用户反馈循环的上下文信息。
Windsurf 通过离线基准测试和盲生产实验对 SWE-1 的性能进行评估。基准测试包括:继续未完成的开发会话和端到端完成工程目标等任务。在这些任务中,SWE-1 的性能接近当前最先进的基础模型,并且优于开放权重和中等规模的替代方案。
在生产实验中,Windsurf 使用匿名模型测试来比较 SWE-1 在现实中的表现。一些指标(如用户每天接受的代码行数和编辑贡献率等)表明,SWE-1 在开发者中的使用率和留存率表现优异。SWE-1-lite 和 SWE-1-mini 的开发采用了与 SWE-1 类似的方法,其中 lite 针对中等性能,而 mini 则针对延迟敏感任务进行了优化。
所有模型均围绕共享时间线的概念构建,这一设计使得用户与 AI 能够在协作流程中共同推进任务。Windsurf 计划借助其集成开发环境生成的数据来扩展这一协作模式,并完善 SWE 系列模型。
社区对 SWE-1 系列模型的初步反馈表明其在软件工程任务中的全面性,而不仅仅局限于代码生成。开发者指出 SWE-1 的工具调用推理功能及其在不同开发环境中处理不完整工作流程的能力对他们来说非常有用。
Web 和应用开发者 Jordan Weinstein 表示:
到目前为止,SWE-1 表现非常出色,尽管在用 SWE-1 测试 Supabase MCP 时 Cascade 会报错。不过 lite 没有这个问题。
技术大神 Leonardo Gonzalez 表示:
大多数 AI 编码助手仅能覆盖开发者实际工作的 20%,而忽略了其余 80%。SWE-1 改变了这个游戏规则。
此次发布恰逢 OpenAI 收购 Windsurf,此举旨在加强其在巩固 OpenAI 在快速增长的 AI 驱动软件工程工具市场中的地位,竞争对手如 Anthropic 的 Claude 和 微软的 GitHub Copilot 已经在该领域占据了重要份额。OpenAI 预计将把 Windsurf 的工程导向 AI 能力整合到自己的生态系统中,包括 ChatGPT 和 Codex 等平台,从而进一步扩大其在软件开发工具领域的影响力。
【声明:本文由 InfoQ 翻译,未经许可禁止转载。】
查看英文原文:https://www.infoq.com/news/2025/05/windsurf-swe-models/
评论