2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Claude Sonnet 4.5 在 SWE-Bench Verified 测试中夺冠,编程专注力突破 30 小时大关

作者: Hien Luu

  • 2025-10-17
    北京
  • 本文字数:1358 字

    阅读完需:约 4 分钟

大小:668.29K时长:03:48
Claude Sonnet 4.5 在 SWE-Bench Verified 测试中夺冠,编程专注力突破 30 小时大关

Anthropic 发布了 Claude Sonnet 4.5,这是目前为止他们最强大的编程模型,在智能代理任务、长时间任务执行能力以及计算机操作方面都有显著提升。该公司表示,这一版本通过更先进的训练和安全方法,让模型在行为上有了明显改进,大幅降低了拍马屁式回答、欺骗、权力追求以及妄想式推理等倾向。Claude Sonnet 4.5 现已通过 Claude API桌面端移动端应用上线,价格与上一代保持一致。

 

Claude Sonnet 4.5 延续了 Anthropic 一贯的策略——在持续提升模型性能的同时,保持对齐与安全性。该模型展示出能在超过 30 小时内持续进行复杂的多步推理与代码执行任务的能力。在衡量 AI 模型解决真实软件问题能力的 SWE-bench Verified 基准测试中,Claude Sonnet 4.5 的得分达到了 77.2%,相比 Sonnet 4 的 72.7% 有明显进步,标志着自主编程能力的又一次飞跃。而在评估实际计算机操作能力的 OSWorld 基准测试中,Sonnet 4.5 取得了 61.4% 的成绩,相比四个月前的 42.2% 有了显著提升。



来源:Anthropic Claude Sonnet 4.5

 

Anthropic 将 Sonnet 4.5 称作他们“最对齐的前沿模型”,强调的是在更强能力和更严格安全之间的平衡。基于 ASL-3 框架,该公司强化了自动化安全分类器,可以检测并拦截潜在的高风险指令,比如涉及化学、生物、放射或核(CBRN)相关内容的请求。根据 Anthropic 的说法,自这些安全系统上线以来,误判率已经降低了十倍,而相比 2025 年 5 月发布的 Claude Opus 4,又进一步减少了二成。

 

为了评估 Claude Sonnet 4.5 在具备工具使用能力的自主场景下的表现,Anthropic 进行了一系列“智能代理安全测试”,内容包括恶意代码生成防护和抵御提示注入攻击等。在 150 个被 Anthropic 使用政策禁止的恶意代码请求中,Claude Sonnet 4.5 只出现了两次未能拒绝的情况,安全表现有明显提升。整体安全得分达到了 98.7%,相比 Claude Sonnet 4 的 89.3% 提高显著,展现出更强的拒绝能力和防御恶意滥用的韧性。

 

Anthropic 建议所有用户都升级到 Claude Sonnet 4.5,并表示这是一次“可直接替换”的升级——性能更强、成本不变。

 

早期用户已经反馈他们在编程流程上有明显收益:

 

Cognition 联合创始人兼 CEO Scott Wu 表示:“在 Devin 平台上,Claude Sonnet 4.5 的规划性能提升了 18%,端到端评估分数提高了 12%,这是自 Claude Sonnet 3.6 以来最大的进步。它在自测代码方面表现特别出色,让 Devin 可以运行更久、处理更复杂的任务,并输出可直接用于生产的代码。”

 

Replit 总裁 Michele Catasta 也分享道:“Claude Sonnet 4.5 的代码编辑能力非常惊人。我们在内部代码编辑测试中,从 Sonnet 4 的 9% 错误率直接降到了 0%。更高的工具成功率、更低的成本,对智能编程来说是一次重大飞跃。Claude Sonnet 4.5 在创造力和可控性之间拿捏得恰到好处。”

 

独立开源开发者 Simon Wilson 在博客中写道:“我最初的感觉是,它在编程方面的表现比我之前最喜欢的 GPT-5-Codex 还要好。那款模型才上线几周,但 Claude Sonnet 4.5 明显更强。”

 

Anthropic 推动更安全、更自主的编程模型,也反映了整个 AI 生态的共同趋势。OpenAI 最近推出了 GPT-5-Codex,这是专为复杂软件工程任务打造的 GPT-5 版本,能处理大规模代码重构和复杂的代码审查工作流程。

 

原文链接:https://www.infoq.com/news/2025/10/claude-sonnet-4-5/

2025-10-17 12:006032

评论

发布
暂无评论

Python高频面试题解析公开课

测吧(北京)科技有限公司

测试

AI赋能PPT制作:一键生成,效率翻倍!

测试人

软件测试 PPT ChatGPT

行业诚信新标杆——行云绽放荣膺AAA级企业信用等级证书

行云管家

信息安全 企业信用等级证书 信用等级

“一键”掌控数据库特权,DpEasy 新版本即将启航

BinTools图尔兹

审计 备份 应用 特权账号管理

2024数智科技大会:奇点云数据云平台敏捷版、GrowingIO多主体增长分析发布

先锋IT

常州等保测评公司有哪些?电话多少?

行云管家

等保 等保测评 常州

在 Kubesphere 中开启新一代云原生数仓 Databend

Databend

AI 日报|硅谷 “鲁迅” 怒怼马斯克,炮轰 AI 界;前 OpenAI 安全主管入职友商 Anthropic

可信AI进展

用 Baidu Comate 实现研发提效,百度营销服务团队打造“轻舸”加速营销智能化

百度Geek说

企业号 5 月 PK 榜 智能代码助手; 企业号2024年5月PK榜 Baidu Comate

现代化实时数仓 SelectDB 再次登顶 ClickBench 全球数据库分析性能排行榜!

SelectDB

数据库 大数据 数据仓库 数据分析 云原生

华为云大咖说:开发者应用AI大模型的“道、法、术”

华为云开发者联盟

人工智能 华为云 大模型 华为云开发者联盟 企业号2024年5月PK榜

API安全应该怎么做?

芯盾时代

网络安全 网关 API网关 零信任

逆向海淘商业模式案例分析 :Hoobuy淘宝代购集运系统丨淘宝代购集运系统搭建

tbapi

淘宝代购系统 淘宝代购集运系统 Pandabuy 反向海淘系统 hoobuy

如何优雅实现存算分离:缓存及Tablespace讲解与演示

酷克数据HashData

存算分离

公开课 | Python高频面试题解析公开课

测试人

软件测试 面试题

深入探索令牌桶限流的原理与实践

袋鼠云数栈

大数据 限流算法 令牌桶 令牌桶算法 数据服务

Python高频面试题解析公开课

霍格沃兹测试开发学社

[ICLR 2024] 基于Pathways架构的自适应多尺度时间序列预测模型Pathformer

阿里云大数据AI技术

人工智能 自适应 论文 Iclr

星创编辑器在投放业务中的落地|得物技术

得物技术

前端 Web React 企业号 2024年5月 PK 榜

文献解读-遗传病-第三期|《Answer ALS,一种用于散发性和家族性 ALS 的大规模资源,结合了来自诱导多能细胞系的临床和多组学数据》

INSVAST

基因数据分析 生信服务

Claude Sonnet 4.5 在 SWE-Bench Verified 测试中夺冠,编程专注力突破 30 小时大关_后端_InfoQ精选文章