如何 0 成本启动全员 AI 技能提升?戳> 了解详情
写点什么

Claude Sonnet 4.5 在 SWE-Bench Verified 测试中夺冠,编程专注力突破 30 小时大关

作者: Hien Luu

  • 2025-10-17
    北京
  • 本文字数:1358 字

    阅读完需:约 4 分钟

大小:668.29K时长:03:48
Claude Sonnet 4.5 在 SWE-Bench Verified 测试中夺冠,编程专注力突破 30 小时大关

Anthropic 发布了 Claude Sonnet 4.5,这是目前为止他们最强大的编程模型,在智能代理任务、长时间任务执行能力以及计算机操作方面都有显著提升。该公司表示,这一版本通过更先进的训练和安全方法,让模型在行为上有了明显改进,大幅降低了拍马屁式回答、欺骗、权力追求以及妄想式推理等倾向。Claude Sonnet 4.5 现已通过 Claude API桌面端移动端应用上线,价格与上一代保持一致。

 

Claude Sonnet 4.5 延续了 Anthropic 一贯的策略——在持续提升模型性能的同时,保持对齐与安全性。该模型展示出能在超过 30 小时内持续进行复杂的多步推理与代码执行任务的能力。在衡量 AI 模型解决真实软件问题能力的 SWE-bench Verified 基准测试中,Claude Sonnet 4.5 的得分达到了 77.2%,相比 Sonnet 4 的 72.7% 有明显进步,标志着自主编程能力的又一次飞跃。而在评估实际计算机操作能力的 OSWorld 基准测试中,Sonnet 4.5 取得了 61.4% 的成绩,相比四个月前的 42.2% 有了显著提升。



来源:Anthropic Claude Sonnet 4.5

 

Anthropic 将 Sonnet 4.5 称作他们“最对齐的前沿模型”,强调的是在更强能力和更严格安全之间的平衡。基于 ASL-3 框架,该公司强化了自动化安全分类器,可以检测并拦截潜在的高风险指令,比如涉及化学、生物、放射或核(CBRN)相关内容的请求。根据 Anthropic 的说法,自这些安全系统上线以来,误判率已经降低了十倍,而相比 2025 年 5 月发布的 Claude Opus 4,又进一步减少了二成。

 

为了评估 Claude Sonnet 4.5 在具备工具使用能力的自主场景下的表现,Anthropic 进行了一系列“智能代理安全测试”,内容包括恶意代码生成防护和抵御提示注入攻击等。在 150 个被 Anthropic 使用政策禁止的恶意代码请求中,Claude Sonnet 4.5 只出现了两次未能拒绝的情况,安全表现有明显提升。整体安全得分达到了 98.7%,相比 Claude Sonnet 4 的 89.3% 提高显著,展现出更强的拒绝能力和防御恶意滥用的韧性。

 

Anthropic 建议所有用户都升级到 Claude Sonnet 4.5,并表示这是一次“可直接替换”的升级——性能更强、成本不变。

 

早期用户已经反馈他们在编程流程上有明显收益:

 

Cognition 联合创始人兼 CEO Scott Wu 表示:“在 Devin 平台上,Claude Sonnet 4.5 的规划性能提升了 18%,端到端评估分数提高了 12%,这是自 Claude Sonnet 3.6 以来最大的进步。它在自测代码方面表现特别出色,让 Devin 可以运行更久、处理更复杂的任务,并输出可直接用于生产的代码。”

 

Replit 总裁 Michele Catasta 也分享道:“Claude Sonnet 4.5 的代码编辑能力非常惊人。我们在内部代码编辑测试中,从 Sonnet 4 的 9% 错误率直接降到了 0%。更高的工具成功率、更低的成本,对智能编程来说是一次重大飞跃。Claude Sonnet 4.5 在创造力和可控性之间拿捏得恰到好处。”

 

独立开源开发者 Simon Wilson 在博客中写道:“我最初的感觉是,它在编程方面的表现比我之前最喜欢的 GPT-5-Codex 还要好。那款模型才上线几周,但 Claude Sonnet 4.5 明显更强。”

 

Anthropic 推动更安全、更自主的编程模型,也反映了整个 AI 生态的共同趋势。OpenAI 最近推出了 GPT-5-Codex,这是专为复杂软件工程任务打造的 GPT-5 版本,能处理大规模代码重构和复杂的代码审查工作流程。

 

原文链接:https://www.infoq.com/news/2025/10/claude-sonnet-4-5/

2025-10-17 12:001

评论

发布
暂无评论

第11周作业

paul

腾讯牵头零信任产业标准工作组正式发布零信任联盟标准

架构训练营第七周作业

一期一会

性能测试 Go 语言

【架构师训练营 1 期】第十一周学习总结

诺乐

话题讨论 | 遇到的印象最深的开源项目

soolaugust

话题讨论

话题讨论 | 2020就要结束了,你最想对自己说的是什么

soolaugust

话题讨论

与前端训练营的日子 --Week06

SamGo

学习

第十一周 学习总结

熊桂平

极客大学架构师训练营

【架构师训练营 1 期】第十一周作业

诺乐

8张图带你了解大型应用架构演进历程

Silently9527

架构 互联网架构设计

CSS flex 排版与动画 — 重学 CSS

三钻

CSS 大前端 排版 Flex

架构师训练营 2 期 Week07 总结

Week_11 总结

golangboy

极客大学架构师训练营

第 07 周 性能压测(响应时间和吞吐量变化)

Airship

极客大学架构师训练营

第十一周 作业

熊桂平

极客大学架构师训练营

Week_11 作业

golangboy

极客大学架构师训练营

ShardingSphere RAW JDBC 分布式事务 Narayana XA 代码示例

Java 数据库 分布式事务 ShardingSphere

腾讯iOA与绿盟、天融信完成产品互认证,助力零信任市场协同发展

话题讨论 | 未来十年,你认为哪门语言将要脱颖而出

soolaugust

话题讨论

从一次不佳的小组讨论展开

sherlockq

架构师训练营第 11 周学习笔记

郎哲158

week02

ルンルン

架构师训练营第 1 期 - 第 10 周 - 命题作业

wgl

week7-性能优化

未来已来

话题讨论 | 2021要来了,你对未来的一年有什么期待

soolaugust

话题讨论

KMP —— 字符串分析算法

三钻

算法 大前端 KMP

week7-作业二:根据当周学习情况,完成一篇学习总结

未来已来

训练营 - 第11周

袭望

密码学,心底的凉暖

X.F

密码学

架构师训练营 11 周作业

郎哲158

Spring 源码学习 08:register 注册配置类

程序员小航

Java spring 源码 源码阅读

Claude Sonnet 4.5 在 SWE-Bench Verified 测试中夺冠,编程专注力突破 30 小时大关_后端_InfoQ精选文章