把握行业变革关键节点,12 月 19 日 - 20 日,AICon北京站即将重磅启幕! 了解详情
写点什么

Claude Sonnet 4.5 在 SWE-Bench Verified 测试中夺冠,编程专注力突破 30 小时大关

作者: Hien Luu

  • 2025-10-17
    北京
  • 本文字数:1358 字

    阅读完需:约 4 分钟

大小:668.29K时长:03:48
Claude Sonnet 4.5 在 SWE-Bench Verified 测试中夺冠,编程专注力突破 30 小时大关

Anthropic 发布了 Claude Sonnet 4.5,这是目前为止他们最强大的编程模型,在智能代理任务、长时间任务执行能力以及计算机操作方面都有显著提升。该公司表示,这一版本通过更先进的训练和安全方法,让模型在行为上有了明显改进,大幅降低了拍马屁式回答、欺骗、权力追求以及妄想式推理等倾向。Claude Sonnet 4.5 现已通过 Claude API桌面端移动端应用上线,价格与上一代保持一致。

 

Claude Sonnet 4.5 延续了 Anthropic 一贯的策略——在持续提升模型性能的同时,保持对齐与安全性。该模型展示出能在超过 30 小时内持续进行复杂的多步推理与代码执行任务的能力。在衡量 AI 模型解决真实软件问题能力的 SWE-bench Verified 基准测试中,Claude Sonnet 4.5 的得分达到了 77.2%,相比 Sonnet 4 的 72.7% 有明显进步,标志着自主编程能力的又一次飞跃。而在评估实际计算机操作能力的 OSWorld 基准测试中,Sonnet 4.5 取得了 61.4% 的成绩,相比四个月前的 42.2% 有了显著提升。



来源:Anthropic Claude Sonnet 4.5

 

Anthropic 将 Sonnet 4.5 称作他们“最对齐的前沿模型”,强调的是在更强能力和更严格安全之间的平衡。基于 ASL-3 框架,该公司强化了自动化安全分类器,可以检测并拦截潜在的高风险指令,比如涉及化学、生物、放射或核(CBRN)相关内容的请求。根据 Anthropic 的说法,自这些安全系统上线以来,误判率已经降低了十倍,而相比 2025 年 5 月发布的 Claude Opus 4,又进一步减少了二成。

 

为了评估 Claude Sonnet 4.5 在具备工具使用能力的自主场景下的表现,Anthropic 进行了一系列“智能代理安全测试”,内容包括恶意代码生成防护和抵御提示注入攻击等。在 150 个被 Anthropic 使用政策禁止的恶意代码请求中,Claude Sonnet 4.5 只出现了两次未能拒绝的情况,安全表现有明显提升。整体安全得分达到了 98.7%,相比 Claude Sonnet 4 的 89.3% 提高显著,展现出更强的拒绝能力和防御恶意滥用的韧性。

 

Anthropic 建议所有用户都升级到 Claude Sonnet 4.5,并表示这是一次“可直接替换”的升级——性能更强、成本不变。

 

早期用户已经反馈他们在编程流程上有明显收益:

 

Cognition 联合创始人兼 CEO Scott Wu 表示:“在 Devin 平台上,Claude Sonnet 4.5 的规划性能提升了 18%,端到端评估分数提高了 12%,这是自 Claude Sonnet 3.6 以来最大的进步。它在自测代码方面表现特别出色,让 Devin 可以运行更久、处理更复杂的任务,并输出可直接用于生产的代码。”

 

Replit 总裁 Michele Catasta 也分享道:“Claude Sonnet 4.5 的代码编辑能力非常惊人。我们在内部代码编辑测试中,从 Sonnet 4 的 9% 错误率直接降到了 0%。更高的工具成功率、更低的成本,对智能编程来说是一次重大飞跃。Claude Sonnet 4.5 在创造力和可控性之间拿捏得恰到好处。”

 

独立开源开发者 Simon Wilson 在博客中写道:“我最初的感觉是,它在编程方面的表现比我之前最喜欢的 GPT-5-Codex 还要好。那款模型才上线几周,但 Claude Sonnet 4.5 明显更强。”

 

Anthropic 推动更安全、更自主的编程模型,也反映了整个 AI 生态的共同趋势。OpenAI 最近推出了 GPT-5-Codex,这是专为复杂软件工程任务打造的 GPT-5 版本,能处理大规模代码重构和复杂的代码审查工作流程。

 

原文链接:https://www.infoq.com/news/2025/10/claude-sonnet-4-5/

2025-10-17 12:006337

评论

发布
暂无评论

软件测试 | 测试开发 | 基于php-code-coverage的增量代码覆盖率实现

测吧(北京)科技有限公司

php 测试 PHP框架

软件测试 | 测试开发 | 测试人生 | 拿到多个 offer 从了一线互联网公司并涨薪70%,90后小哥哥免费分享面试经验~

测吧(北京)科技有限公司

测试 软件测试和开发

OpenIM集群(非k8s)部署文档

Geek_1ef48b

专访|3DCAT如何赋能Matterverse打造3A游戏画面的Sandbox

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

2022 DEMO CHINA创新中国峰会拉开帷幕

创业邦

深圳参加java培训哪个机构靠谱

小谷哥

软件测试 | 测试开发 | 使用charles 修改服务器返回数据

测吧(北京)科技有限公司

软件测试 测试

上海参加java开发培训怎么样

小谷哥

在北京如何能找到大数据培训机构

小谷哥

同样是断言,为何 Hamcrest 如此优秀?

霍格沃兹测试开发学社

Java注解详细

石臻臻的杂货铺

Java 阅读 9月月更

清远市等保测评公司有几家?分别在哪里?

行云管家

网络安全 等保 等保测评 等级测评 清远

软件测试 | 测试开发 | Kafka入门

测吧(北京)科技有限公司

kafka 软件测试

软件测试 | 测试开发 | 测试人生 | 毕业2年,拒绝独角兽入职名企大厂涨薪10万+,这个95后小姐姐好飒

测吧(北京)科技有限公司

软件测试 测试

软件测试 | 测试开发 | 测试人生 | 从外行到外包,从手工测试到知名互联大厂测开 这个90后小姐姐是怎么腾飞的?

测吧(北京)科技有限公司

最佳实践|用腾讯云AI图像搜索打造属于自己的拍立淘

牵着蜗牛去散步

腾讯 图像搜索 腾讯云AI 小程序商城 AI技术实践

web前端培训班口碑哪个比较好

小谷哥

软件测试 | 测试开发 | 测试人生 | 双非院校、入职某知名电商公司薪资翻倍还有股票奖励,这个90后小姐姐也太飒了吧?

测吧(北京)科技有限公司

面试 软件测试

软件测试 | 测试开发 | 测试人生 | 双非学历,从外包到某大厂只用了1年时间,在2线城市年薪近30万,我柠檬了......

测吧(北京)科技有限公司

面试 测试 软件测试和开发

软件测试 | 测试开发 | 测试人生 | 从跨专业手工测试转岗外包,再到 Python 测试开发,跳槽涨薪 85%

测吧(北京)科技有限公司

Python 测试开发

干货分享!JAVA诊断工具Arthas在Rainbond上实践~

北京好雨科技有限公司

Kubernetes Arthas 企业号九月金秋榜

切流的基本逻辑

agnostic

切流

软件测试 | 测试开发 | 测试人生 | 年薪50w+ 并入职名企大厂,这是双非学历小哥哥给自己30岁的礼物

测吧(北京)科技有限公司

人生 软件测试 测试

软件测试 | 测试开发 | MySQL锁机制总结

测吧(北京)科技有限公司

OpenHarmony——内核IPC机制数据结构解析

OpenHarmony开发者

OpenHarmony

知识图谱在智能运维中的应用

穿过生命散发芬芳

知识图谱 9月月更

软件测试 | 测试开发 | 测试人生 | 从传统行业到名企大厂,薪资翻倍,我做到了

测吧(北京)科技有限公司

面试 测试工程师 软件测试和开发

java开发培训好还是自学好?

小谷哥

软件测试 | 测试开发 | vue双向绑定原理实现

测吧(北京)科技有限公司

Vue 测试框架

软件测试 | 测试开发 | 测试人生 | 双非院校跨城重新开始,薪资翻了2倍还多,这个90后小姐姐好飒

测吧(北京)科技有限公司

软件测试 | 测试开发 | 项目倒排,跟工期不足say byebye~

测吧(北京)科技有限公司

测试

Claude Sonnet 4.5 在 SWE-Bench Verified 测试中夺冠,编程专注力突破 30 小时大关_后端_InfoQ精选文章