
Anthropic 发布了 Claude Sonnet 4.5,这是目前为止他们最强大的编程模型,在智能代理任务、长时间任务执行能力以及计算机操作方面都有显著提升。该公司表示,这一版本通过更先进的训练和安全方法,让模型在行为上有了明显改进,大幅降低了拍马屁式回答、欺骗、权力追求以及妄想式推理等倾向。Claude Sonnet 4.5 现已通过 Claude API、桌面端和移动端应用上线,价格与上一代保持一致。
Claude Sonnet 4.5 延续了 Anthropic 一贯的策略——在持续提升模型性能的同时,保持对齐与安全性。该模型展示出能在超过 30 小时内持续进行复杂的多步推理与代码执行任务的能力。在衡量 AI 模型解决真实软件问题能力的 SWE-bench Verified 基准测试中,Claude Sonnet 4.5 的得分达到了 77.2%,相比 Sonnet 4 的 72.7% 有明显进步,标志着自主编程能力的又一次飞跃。而在评估实际计算机操作能力的 OSWorld 基准测试中,Sonnet 4.5 取得了 61.4% 的成绩,相比四个月前的 42.2% 有了显著提升。

来源:Anthropic Claude Sonnet 4.5
Anthropic 将 Sonnet 4.5 称作他们“最对齐的前沿模型”,强调的是在更强能力和更严格安全之间的平衡。基于 ASL-3 框架,该公司强化了自动化安全分类器,可以检测并拦截潜在的高风险指令,比如涉及化学、生物、放射或核(CBRN)相关内容的请求。根据 Anthropic 的说法,自这些安全系统上线以来,误判率已经降低了十倍,而相比 2025 年 5 月发布的 Claude Opus 4,又进一步减少了二成。
为了评估 Claude Sonnet 4.5 在具备工具使用能力的自主场景下的表现,Anthropic 进行了一系列“智能代理安全测试”,内容包括恶意代码生成防护和抵御提示注入攻击等。在 150 个被 Anthropic 使用政策禁止的恶意代码请求中,Claude Sonnet 4.5 只出现了两次未能拒绝的情况,安全表现有明显提升。整体安全得分达到了 98.7%,相比 Claude Sonnet 4 的 89.3% 提高显著,展现出更强的拒绝能力和防御恶意滥用的韧性。
Anthropic 建议所有用户都升级到 Claude Sonnet 4.5,并表示这是一次“可直接替换”的升级——性能更强、成本不变。
早期用户已经反馈他们在编程流程上有明显收益:
Cognition 联合创始人兼 CEO Scott Wu 表示:“在 Devin 平台上,Claude Sonnet 4.5 的规划性能提升了 18%,端到端评估分数提高了 12%,这是自 Claude Sonnet 3.6 以来最大的进步。它在自测代码方面表现特别出色,让 Devin 可以运行更久、处理更复杂的任务,并输出可直接用于生产的代码。”
Replit 总裁 Michele Catasta 也分享道:“Claude Sonnet 4.5 的代码编辑能力非常惊人。我们在内部代码编辑测试中,从 Sonnet 4 的 9% 错误率直接降到了 0%。更高的工具成功率、更低的成本,对智能编程来说是一次重大飞跃。Claude Sonnet 4.5 在创造力和可控性之间拿捏得恰到好处。”
独立开源开发者 Simon Wilson 在博客中写道:“我最初的感觉是,它在编程方面的表现比我之前最喜欢的 GPT-5-Codex 还要好。那款模型才上线几周,但 Claude Sonnet 4.5 明显更强。”
Anthropic 推动更安全、更自主的编程模型,也反映了整个 AI 生态的共同趋势。OpenAI 最近推出了 GPT-5-Codex,这是专为复杂软件工程任务打造的 GPT-5 版本,能处理大规模代码重构和复杂的代码审查工作流程。
评论