写点什么

4 倍速吊打 Cursor 新模型!英伟达数千 GB200 堆出的 SWE-1.5,圆了 Devin 的梦!实测被曝性能“滑铁卢”?

  • 2025-10-31
    北京
  • 本文字数:3473 字

    阅读完需:约 11 分钟

大小:1.72M时长:10:00
4倍速吊打Cursor新模型!英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦!实测被曝性能“滑铁卢”?

整理 | 华卫

 

近日,开发出 Devin 智能体的知名人工智能公司 Cognition 推出其全新高速 AI 编码模型 SWE-1.5。据介绍,该模型专为在软件工程任务中实现高性能与高速度而设计,现已在 Windsurf 代码编辑器中开放使用。今年 7 月,Cognition 高调收购开发工具 Windsurf。

 

同时,Cognition 称,得益于与推理服务提供商 Cerebras 的合作,SWE-1.5 的运行速度最高可达 Anthropic 旗下 Sonnet 4.5 模型的 13 倍。

比 Sonnet 4.5 快 13 倍,编码性能近 SOTA

“开发者不应在‘思考速度快’与‘思考质量高’的人工智能之间做选择。”Cognition 在官方声明中表示,这一理念是 SWE-1.5 的设计基础。

 

据介绍,SWE-1.5 经过专门设计,是一款拥有数千亿参数的前沿规模模型,旨在打破上述权衡困境的同时提供顶尖性能与一流速度。而该模型最显著的特点是其原始速度,这一优势源于与推理领域专业机构 Cerebras 的深度合作:共同部署并优化 SWE-1.5。具体举措包括训练一个经过优化的草稿模型以实现更快的投机解码以及构建定制化请求优先级系统,让端到端智能体交互过程更流畅。

 

Cognition 表示,此次合作让 SWE-1.5 实现了极佳的延迟表现,并“还树立了新的速度标准”,使其处理速度最高可达 950 token / 秒,分别是 Haiku 4.5 模型的 6 倍、Sonnet 4.5 模型的 13 倍。”这一性能飞跃能够让开发者保持 “心流状态”,将此前需 20 秒的某类任务完成时间控制在 5 秒以内。Cognition 认为,5 秒是避免陷入 “半异步死亡谷” 的关键阈值。

 


当模型运行速度达到最高 950 token / 秒时,此前可忽略不计的系统延迟成为了主要瓶颈,这迫使其重新审视 Windsurf 智能体实现方案中的多个关键部分。为此,Cognition 重写了代码检查(lint checking)、命令执行流水线等核心组件,每一步操作的开销最多降低了 2 秒。“未来,我们计划在这类优化工作上持续投入。”该公司称。

 

在 Scale AI 开发的 SWE-Bench Pro 基准测试中,Cognition 的 SWE-1.5 模型取得了 40.08%的良好成绩,仅次于 Claude 的 Sonnet 4.5(该模型得分 43.60%)。此外,SWE-1.5 致力于提供端到端的用户体验。据透露,该模型在高速运行状态下实现了接近当前最佳水平(near-SOTA)的编码性能。

 


Cognition 方面表示,最重要的是,目前他们团队的众多工程师已将 SWE-1.5 作为日常工作工具,热门应用场景包括:深度探索与理解大型代码库;构建端到端的全栈应用程序轻松编辑配置文件,无需记忆字段名称。据悉,目前 Cognition 处于测试阶段的 Codemaps 功能就在由 SWE-1.5 提供支持。

基于新一代 GB200 芯片训练,设计全新编码环境

支撑这款新模型的是对尖端基础设施的巨额投入。Cognition 透露,SWE-1.5 的训练依托于 “由数千颗英伟达 GB200 NVL72 芯片组成的先进集群”,并声称它可能是 “首个基于新一代 GB200 芯片训练的公开生产级模型”。GB200 在去年推出之时一度被称为“性能怪兽”,与相同数量的英伟达 H100 Tensor Core GPU 相比,GB200 NVL72 在 LLM 推理工作负载方面的性能最多可提升 30 倍、成本和能耗最多可降低 25 倍。

 

今年 6 月初,该团队首批获取这批新硬件访问权限时,其固件尚未成熟,这迫使团队从零开始构建更稳健的健康检查系统与容错训练系统。对于专门针对现代软件工程中复杂、多步骤任务微调模型所用到的密集型强化学习(RL)技术而言,这套强大的硬件至关重要。

 

在训练方法上,该模型的训练是在 Cognition 定制的 Cascade 智能体框架上,通过端到端强化学习完成的,并借助了由上千颗 GB200 NVL72 芯片组成的集群。

 

同时,Cognition 认为,RL 任务中的编码环境质量是影响下游模型性能的最重要因素。为此,他们手动创建了一个数据集,力求还原在 Devin 与 Windsurf 中观察到的、真实场景下任务与编程语言的广泛分布情况。基于开发 Devin 及构建 Junior-Dev 基准测试的经验,其在打造专属评估体系上投入了大量资源。并且,他们与顶尖高级工程师、开源项目维护者及技术负责人团队合作,设计了高保真度的编码环境。

 

需要注意的是,SWE-1.5 是其首次尝试借助这类环境提升模型编码能力,该环境中包含三种评分机制:用于可靠验证代码正确性的经典测试(如单元测试、集成测试)、用于评估代码质量与实现思路的评分标准(Rubrics)和借助可使用浏览器的智能体测试产品功能的端到端完整性的智能体评分(Agentic grading)。为确保环境能抵御 “奖励作弊”(reward hacking)行为,他们开发了一套名为 “奖励强化”(reward hardening)的流程 —— 由人类专家尝试寻找绕过评分器的方法。

从 Windsurf 的“余烬”中,诞生新战略

这款新模型是 SWE 系列模型的迭代产品,而 SWE 项目最初由原 Windsurf 团队在 2025 年 5 月启动,之后 OpenAI 对 Windsurf 的收购计划失败,Cognition 随即介入成为 “接盘方”。如今,通过将 SWE-1.5 直接集成到 Windsurf 集成开发环境(IDE)中,Cognition 正逐步实现一个新愿景。

 

SWE-1.5 并非单一模型,其模型本身、推理过程与智能体框架经过协同设计,共同构成一个统一系统,以此同时实现高速与智能。“选择编码智能体,不只是选择模型本身。其周边的协同调度系统,对模型的实际表现也有着极大影响。在开发 Devin 时,我们常常希望能将模型与框架协同开发;而通过此次 SWE-1.5 的发布,我们终于实现了这一目标。“Cognition 在公告中解释道。

 

因此,SWE-1.5 的开发过程包含以下核心环节:

  • 基于领先的开源基础模型,在其定制的 Cascade 智能体框架之上,于真实任务环境中开展端到端强化学习(RL)训练。

  • 在模型训练、框架优化、工具开发与提示词工程等方面持续迭代。

  • 必要时从零重写核心工具与系统,以提升速度与准确性(当模型速度提升 10 倍后,很多环节都会变成瓶颈!)。其计划在这一领域持续推进,相关改进也将助力 Windsurf 中其他所有模型的性能提升。

  • 高度依赖内部真实场景的 “内部测试使用”(dogfooding)来指导调优决策,这种方式能让其围绕用户体验对智能体与模型进行调优,而通用奖励函数无法实现这一点。

  • 部署该模型的多个测试版本(以 “Falcon Alpha” 为名称),并对性能指标进行监控。

 

这一战略让 SWE 系列模型得以快速迭代,而 Cognition 此举似乎也在押注:即便没有推出市场上参数规模绝对最大的模型,这种高度集成的高速体验或也能培养出一批忠实用户。

SWE-1.5 vs Composer,大家怎么看?

SWE-1.5 发布之际,AI 编码环境工具 Cursor 也推出了其专属高速模型 Composer。人工智能智能体公司正通过打造专有模型,构建高度集成、低延迟的开发者体验,并减少对第三方接口(API)的依赖。同时,这两项发布表明人工智能开发者工具市场出现了明确的战略趋同。

 

两家公司都在大规模采用强化学习技术。Cognition 利用一款名为 otterlink 的虚拟机管理程序,在数万个并发的高保真环境中运行强化学习推演,这些环境包含代码执行与网页浏览功能。这种方法与 Cursor 所描述的、为自身强化学习训练 “运行数十万个并发沙盒编码环境” 的方式高度相似。

 

而该技术路径也凸显出一个共识:要打造真正高效的编码智能体,企业须结合自有定制工具与真实场景对模型进行微调。Cursor 的一位机器学习研究员这样解读该策略:“如今,要实现高效工作,至少需要具备一定水平的智能;若能将这种智能与速度结合,效果会非常出色。”

 

两者的另一相似之处在于透明度的缺失。Cognition 与 Cursor 均对其新模型的基础架构守口如瓶,仅提及模型基于 “领先的开源基础模型” 构建。这种保密性使得独立评估难以开展,只能依赖用户对企业内部基准测试的信任。这也引发网友一系列的猜测,有人怀疑 SWE-1.5“使用的开源模型可能是 GLM-4.5,Composer 也是一样的情况”。

 

值得一提的是,据公开介绍,Composer 的生成速度达到每秒 250 个 token,而 SWE-1.5 的处理速度最高可达 950 token / 秒,是前者接近 4 倍。

 

目前,已有一批开发者试用了 SWE-1.5。AI 专家兼博主 Simon Willison 在测试 SWE-1.5 后表示:“这款模型确实感觉非常快。与 Cerebras 合作进行推理,是一步非常明智的举措。”然而,也有用户在使用两款模型后称,“SWE-1.5 虽然速度快,但没能解决一个问题;而 Cursor 2.0 的 Composer-1 模型却一次性解决了该问题(在 5-codex 连接失败的情况下)。”

 


此外,还有用户反馈,“(SWE-1.5)它在处理小型任务时表现确实不错。但比如在尝试完成某项任务时不仅失败了,还搞砸了所有东西(出现了无效的差异编辑),而 GPT-5(低推理版本)一次就成功完成了。”

 


参考链接:

https://cognition.ai/blog/swe-1-5

https://winbuzzer.com/2025/10/30/cognition-releases-windsurf-high-speed-swe-1-5-ai-coding-model-outpacing-gpt-5-high-xcxwbn/

2025-10-31 18:4314

评论

发布
暂无评论

第八周作业

cqyanbo

7大迹象,表明你的DevOps 做对了!

飞算JavaAI开发助手

互联网人的命运,就是活到30岁都难?

码农参上

人生 互联网人 打工人

郑州轻工业大学——HarmonyOS宠物健康系统的开发分享

HarmonyOS开发者

HarmonyOS 健康检查

java培训:Java类加载机制的理解

@零度

JAVA开发 类加载机制

日志管理系统,多种方式总结

架构 日志 slf4j logback

2022年中国智慧医疗行业洞察

易观分析

智慧医疗

喜报!龙蜥操作系统&龙蜥社区双双荣登2021“科创中国”开源创新榜!

OpenAnolis小助手

开源 操作系统 创新

2022重磅:增长法则-巧用数字营销 突破企业困局

博文视点Broadview

【架构实战营】模块八:命题作业

wgl

「架构实战营」

Go 语言入门很简单:从 goroutine 出发到并发

宇宙之一粟

Go 语言 goroutine 2月月更

模块八作业

hunk

云原生训练营

分享两个常见的搜索算法:BFS和DFS

华为云开发者联盟

算法 DFS 深度优先搜索 BFS 搜索算法

鉴机识变,面向未来|RocketMQ Summit 2022 即将来袭

阿里巴巴云原生

阿里云 开源 RocketMQ 云原生 开源消息队列

基于 Kafka 的实时数仓在搜索的实践应用

vivo互联网技术

kafka 服务器 搜索 数据舱

模块八作业

李晓笛

「架构实战营」

模块八 - 消息队列存储数据表结构设计

圈圈gor

架构实战营 「架构实战营」

不能Hook的人生不值得 jsHook和模拟执行

奋飞安全

安全 js hook jshook

如何写好一个Java类?

蜜糖的代码注释

Java 整洁代码 2月月更

消息队列基于Mysql存储表设计

tony

「架构实战营」

基于STM32+ESP8266+华为云IoT设计的智能门锁

DS小龙哥

2月月更

史上最强代码自测方法,没有之一!

万俊峰Kevin

微服务 单元测试 go-zero 测试工具 Go 语言

混合编程:如何用pybind11调用C++

华为云开发者联盟

c++ Python API 混合编程 pybind11

模块八作业-设计消息队列存储消息的MySQL表

CH

架构实战营 #架构实战营 「架构实战营」

大数据培训:Flink的提交模式

@零度

大数据 flink

模块八作业

黄秀明

「架构实战营」

边缘计算场景下Service Mesh的延伸和扩展

华为云原生团队

开源 边缘计算 边缘技术 边缘 边缘云

架构训练营模块八作业

沈益飞

架构训练营 架构师训练营 4 期

编写 Kubernetes 部署脚本将 httpserver 部署到 Kubernetes 集群

tom

理论+实践,带你掌握动态规划法

华为云开发者联盟

AI 算法 动态规划法 子问题

80 行代码实现简易 RxJS

CRMEB

4倍速吊打Cursor新模型!英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦!实测被曝性能“滑铁卢”?_AI&大模型_华卫_InfoQ精选文章