写点什么

4 倍速吊打 Cursor 新模型!英伟达数千 GB200 堆出的 SWE-1.5,圆了 Devin 的梦!实测被曝性能“滑铁卢”?

  • 2025-10-31
    北京
  • 本文字数:3473 字

    阅读完需:约 11 分钟

大小:1.72M时长:10:00
4倍速吊打Cursor新模型!英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦!实测被曝性能“滑铁卢”?

整理 | 华卫

 

近日,开发出 Devin 智能体的知名人工智能公司 Cognition 推出其全新高速 AI 编码模型 SWE-1.5。据介绍,该模型专为在软件工程任务中实现高性能与高速度而设计,现已在 Windsurf 代码编辑器中开放使用。今年 7 月,Cognition 高调收购开发工具 Windsurf。

 

同时,Cognition 称,得益于与推理服务提供商 Cerebras 的合作,SWE-1.5 的运行速度最高可达 Anthropic 旗下 Sonnet 4.5 模型的 13 倍。

比 Sonnet 4.5 快 13 倍,编码性能近 SOTA

“开发者不应在‘思考速度快’与‘思考质量高’的人工智能之间做选择。”Cognition 在官方声明中表示,这一理念是 SWE-1.5 的设计基础。

 

据介绍,SWE-1.5 经过专门设计,是一款拥有数千亿参数的前沿规模模型,旨在打破上述权衡困境的同时提供顶尖性能与一流速度。而该模型最显著的特点是其原始速度,这一优势源于与推理领域专业机构 Cerebras 的深度合作:共同部署并优化 SWE-1.5。具体举措包括训练一个经过优化的草稿模型以实现更快的投机解码以及构建定制化请求优先级系统,让端到端智能体交互过程更流畅。

 

Cognition 表示,此次合作让 SWE-1.5 实现了极佳的延迟表现,并“还树立了新的速度标准”,使其处理速度最高可达 950 token / 秒,分别是 Haiku 4.5 模型的 6 倍、Sonnet 4.5 模型的 13 倍。”这一性能飞跃能够让开发者保持 “心流状态”,将此前需 20 秒的某类任务完成时间控制在 5 秒以内。Cognition 认为,5 秒是避免陷入 “半异步死亡谷” 的关键阈值。

 


当模型运行速度达到最高 950 token / 秒时,此前可忽略不计的系统延迟成为了主要瓶颈,这迫使其重新审视 Windsurf 智能体实现方案中的多个关键部分。为此,Cognition 重写了代码检查(lint checking)、命令执行流水线等核心组件,每一步操作的开销最多降低了 2 秒。“未来,我们计划在这类优化工作上持续投入。”该公司称。

 

在 Scale AI 开发的 SWE-Bench Pro 基准测试中,Cognition 的 SWE-1.5 模型取得了 40.08%的良好成绩,仅次于 Claude 的 Sonnet 4.5(该模型得分 43.60%)。此外,SWE-1.5 致力于提供端到端的用户体验。据透露,该模型在高速运行状态下实现了接近当前最佳水平(near-SOTA)的编码性能。

 


Cognition 方面表示,最重要的是,目前他们团队的众多工程师已将 SWE-1.5 作为日常工作工具,热门应用场景包括:深度探索与理解大型代码库;构建端到端的全栈应用程序轻松编辑配置文件,无需记忆字段名称。据悉,目前 Cognition 处于测试阶段的 Codemaps 功能就在由 SWE-1.5 提供支持。

基于新一代 GB200 芯片训练,设计全新编码环境

支撑这款新模型的是对尖端基础设施的巨额投入。Cognition 透露,SWE-1.5 的训练依托于 “由数千颗英伟达 GB200 NVL72 芯片组成的先进集群”,并声称它可能是 “首个基于新一代 GB200 芯片训练的公开生产级模型”。GB200 在去年推出之时一度被称为“性能怪兽”,与相同数量的英伟达 H100 Tensor Core GPU 相比,GB200 NVL72 在 LLM 推理工作负载方面的性能最多可提升 30 倍、成本和能耗最多可降低 25 倍。

 

今年 6 月初,该团队首批获取这批新硬件访问权限时,其固件尚未成熟,这迫使团队从零开始构建更稳健的健康检查系统与容错训练系统。对于专门针对现代软件工程中复杂、多步骤任务微调模型所用到的密集型强化学习(RL)技术而言,这套强大的硬件至关重要。

 

在训练方法上,该模型的训练是在 Cognition 定制的 Cascade 智能体框架上,通过端到端强化学习完成的,并借助了由上千颗 GB200 NVL72 芯片组成的集群。

 

同时,Cognition 认为,RL 任务中的编码环境质量是影响下游模型性能的最重要因素。为此,他们手动创建了一个数据集,力求还原在 Devin 与 Windsurf 中观察到的、真实场景下任务与编程语言的广泛分布情况。基于开发 Devin 及构建 Junior-Dev 基准测试的经验,其在打造专属评估体系上投入了大量资源。并且,他们与顶尖高级工程师、开源项目维护者及技术负责人团队合作,设计了高保真度的编码环境。

 

需要注意的是,SWE-1.5 是其首次尝试借助这类环境提升模型编码能力,该环境中包含三种评分机制:用于可靠验证代码正确性的经典测试(如单元测试、集成测试)、用于评估代码质量与实现思路的评分标准(Rubrics)和借助可使用浏览器的智能体测试产品功能的端到端完整性的智能体评分(Agentic grading)。为确保环境能抵御 “奖励作弊”(reward hacking)行为,他们开发了一套名为 “奖励强化”(reward hardening)的流程 —— 由人类专家尝试寻找绕过评分器的方法。

从 Windsurf 的“余烬”中,诞生新战略

这款新模型是 SWE 系列模型的迭代产品,而 SWE 项目最初由原 Windsurf 团队在 2025 年 5 月启动,之后 OpenAI 对 Windsurf 的收购计划失败,Cognition 随即介入成为 “接盘方”。如今,通过将 SWE-1.5 直接集成到 Windsurf 集成开发环境(IDE)中,Cognition 正逐步实现一个新愿景。

 

SWE-1.5 并非单一模型,其模型本身、推理过程与智能体框架经过协同设计,共同构成一个统一系统,以此同时实现高速与智能。“选择编码智能体,不只是选择模型本身。其周边的协同调度系统,对模型的实际表现也有着极大影响。在开发 Devin 时,我们常常希望能将模型与框架协同开发;而通过此次 SWE-1.5 的发布,我们终于实现了这一目标。“Cognition 在公告中解释道。

 

因此,SWE-1.5 的开发过程包含以下核心环节:

  • 基于领先的开源基础模型,在其定制的 Cascade 智能体框架之上,于真实任务环境中开展端到端强化学习(RL)训练。

  • 在模型训练、框架优化、工具开发与提示词工程等方面持续迭代。

  • 必要时从零重写核心工具与系统,以提升速度与准确性(当模型速度提升 10 倍后,很多环节都会变成瓶颈!)。其计划在这一领域持续推进,相关改进也将助力 Windsurf 中其他所有模型的性能提升。

  • 高度依赖内部真实场景的 “内部测试使用”(dogfooding)来指导调优决策,这种方式能让其围绕用户体验对智能体与模型进行调优,而通用奖励函数无法实现这一点。

  • 部署该模型的多个测试版本(以 “Falcon Alpha” 为名称),并对性能指标进行监控。

 

这一战略让 SWE 系列模型得以快速迭代,而 Cognition 此举似乎也在押注:即便没有推出市场上参数规模绝对最大的模型,这种高度集成的高速体验或也能培养出一批忠实用户。

SWE-1.5 vs Composer,大家怎么看?

SWE-1.5 发布之际,AI 编码环境工具 Cursor 也推出了其专属高速模型 Composer。人工智能智能体公司正通过打造专有模型,构建高度集成、低延迟的开发者体验,并减少对第三方接口(API)的依赖。同时,这两项发布表明人工智能开发者工具市场出现了明确的战略趋同。

 

两家公司都在大规模采用强化学习技术。Cognition 利用一款名为 otterlink 的虚拟机管理程序,在数万个并发的高保真环境中运行强化学习推演,这些环境包含代码执行与网页浏览功能。这种方法与 Cursor 所描述的、为自身强化学习训练 “运行数十万个并发沙盒编码环境” 的方式高度相似。

 

而该技术路径也凸显出一个共识:要打造真正高效的编码智能体,企业须结合自有定制工具与真实场景对模型进行微调。Cursor 的一位机器学习研究员这样解读该策略:“如今,要实现高效工作,至少需要具备一定水平的智能;若能将这种智能与速度结合,效果会非常出色。”

 

两者的另一相似之处在于透明度的缺失。Cognition 与 Cursor 均对其新模型的基础架构守口如瓶,仅提及模型基于 “领先的开源基础模型” 构建。这种保密性使得独立评估难以开展,只能依赖用户对企业内部基准测试的信任。这也引发网友一系列的猜测,有人怀疑 SWE-1.5“使用的开源模型可能是 GLM-4.5,Composer 也是一样的情况”。

 

值得一提的是,据公开介绍,Composer 的生成速度达到每秒 250 个 token,而 SWE-1.5 的处理速度最高可达 950 token / 秒,是前者接近 4 倍。

 

目前,已有一批开发者试用了 SWE-1.5。AI 专家兼博主 Simon Willison 在测试 SWE-1.5 后表示:“这款模型确实感觉非常快。与 Cerebras 合作进行推理,是一步非常明智的举措。”然而,也有用户在使用两款模型后称,“SWE-1.5 虽然速度快,但没能解决一个问题;而 Cursor 2.0 的 Composer-1 模型却一次性解决了该问题(在 5-codex 连接失败的情况下)。”

 


此外,还有用户反馈,“(SWE-1.5)它在处理小型任务时表现确实不错。但比如在尝试完成某项任务时不仅失败了,还搞砸了所有东西(出现了无效的差异编辑),而 GPT-5(低推理版本)一次就成功完成了。”

 


参考链接:

https://cognition.ai/blog/swe-1-5

https://winbuzzer.com/2025/10/30/cognition-releases-windsurf-high-speed-swe-1-5-ai-coding-model-outpacing-gpt-5-high-xcxwbn/

2025-10-31 18:437910

评论

发布
暂无评论

面试官:Linux操作系统里一个进程最多可以创建多少个线程?

Java全栈架构师

程序员 多线程 操作系统 计算机 java面试

腾讯一面:内存满了,会发生什么?

程序员小毕

程序员 腾讯 面试 程序人生 计算机

阿里内网GC面试小册,仅7天Github获赞96.9K

程序知音

Java 阿里巴巴 程序员 后端 JVM

无人自助洗车项目如何?好不好做

共享电单车厂家

自助洗车加盟 车白兔自助洗车 无人自助洗车项目

性能测试中的随机数性能问题探索

FunTester

共享自助洗车是车主自己洗吗?

共享电单车厂家

共享自助洗车 自助洗车加盟 车白兔自助洗车

自助洗车更轻松更自在的洗车方式

共享电单车厂家

自助洗车 自助洗车加盟 车白兔自助洗车

KunlunBase指导手册(二)对等部署最佳实践

KunlunBase昆仑数据库

国产数据库

KunlunBase指导手册(三)数据导入&同步

KunlunBase昆仑数据库

国产数据库

KunlunBase 0.9.1版本Sysbench性能测试报告

KunlunBase昆仑数据库

国产数据库

昆仑数据库 MySQL 连接协议简介

KunlunBase昆仑数据库

国产数据库

ORACLE进阶(十四)转义字符讲解

No Silver Bullet

oracle delete 转义字符 7月月更 TRUNCATE

拔掉网线几秒,再插回去,原本的 TCP 连接还存在吗?

程序员小毕

程序员 程序人生 计算机网络 java面试 TCP协议

A tour of gRPC:04 - gRPC unary call 一元调用

BUG侦探

gRPC RPC protocolBuffer

Kunlun-Storage vs PostgreSQL OLTP 测试

KunlunBase昆仑数据库

国产数据库

连续4周上榜的这位开发者,活出了当代大学生该有的样子

OpenI启智社区

深度学习 开源 大学

KunlunBase 读写分离方案

KunlunBase昆仑数据库

美团二面:为什么Redis会有哨兵?

Java全栈架构师

Java redis 程序员 面试 后端

SAP Fiori @OData.publish 注解的工作原理解析

汪子熙

SAP Fiori SAP UI5 ui5 7月月更

小数据量用户场景使用KunlunBase的价值

KunlunBase昆仑数据库

KunlunBase的Fullsync高可用机制简介

KunlunBase昆仑数据库

国产数据库

什么是“企业级”低代码?成为企业级低代码必须具备的5种能力

优秀

低代码 企业级低代码平台

【容器篇】Docker实现资源隔离的秘籍

技术小生

Docker 7月月更

SVN 修订版本关键字

攻城狮杰森

svn 关键字 7月月更

KunlunBase 指导手册(一)快速安装手册

KunlunBase昆仑数据库

国产数据库

商品管理功能越来越丰富,不愧是 Pro 系统!

CRMEB

KunlunBase功能之insert/update/delete...returning语句

KunlunBase昆仑数据库

国产数据库

心寄开源,合规护航!2022 开放原子全球开源峰会开源合规分论坛即将开幕

kk-OSC

开源 开源峰会 开放原子全球开源峰会 开源合规

KunlunBase指导手册(四)从 Oracle 实时同步数据到 KunlunBase

KunlunBase昆仑数据库

国产数据库

KunlunBase对MySQL私有DML语法的支持

KunlunBase昆仑数据库

国产数据库

4倍速吊打Cursor新模型!英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦!实测被曝性能“滑铁卢”?_AI&大模型_华卫_InfoQ精选文章