写点什么

Claude Opus 4.1 上线,SWE-bench 验证率 74.5%,重构可靠性与安全性全面升级

作者:Hien Luu

  • 2025-09-01
    北京
  • 本文字数:920 字

    阅读完需:约 3 分钟

大小:456.09K时长:02:35
Claude Opus 4.1 上线,SWE-bench 验证率 74.5%,重构可靠性与安全性全面升级

Anthropic 已推出 Claude Opus 4.1,这是针对 Opus 4 的重要升级版,显著增强了模型在多文件项目中的代码可靠性,并提升了模型在长链式交互中的推理能力。该版本在 SWE-bench Verified 基准测试中的得分由 72.5% 改进至 74.5%,说明模型在真实世界编程任务中更加可靠。


图 1:Opus 4.1 与 Opus 4 在 SWE-bench Verified 准确率上的对比


在 Opus 4 的基础上,新版本进一步强化了 Claude 作为编程助手的能力,尤其在开发者常用的多文件场景中,其代码重构的可靠性有了提升——这是许多 AI 助手的薄弱环节。Anthropic 还指出,模型在长时间交互中跟踪推理链和状态的能力有所提升,这对类代理(agent-like)工作流程至关重要。他们将这些更新视为循序渐进但意义显著的改进,助力 Claude 向更实用、可应用于企业级场景的 AI 助手发展。


SWE-bench Verified 被广泛认为是衡量编码助手在真实 GitHub 项目中解决问题能力的重要基准测试。相比于合成基准,SWE-bench 更贴近真实开发场景,因此其得分提升被视为模型在实际编程任务中能力增强的重要指标。


据发布说明所述,GitHub 反馈称 Opus 4.1 在复杂重构任务上性能更强;Rakuten Group 表示,Claude 能在大型代码库中准确指出修正位置,且不会引入无关改动;而 Windsurf 在内部面向初级开发者的基准测试中,观察到比 Opus 4 高出一个标准差的性能跃升——这一跨越被比作从 Sonnet 3.7 升级到 Sonnet 4 的提升。


安全性方面,Claude Opus 4.1 的“无害响应率”(harmless response rate)提升至 98.76%,相比 Opus 4 的 97.27% 有明显提高。这意味着模型在拒绝违规请求时更加可靠。同时,在涉及武器或毒品合成等高风险滥用场景中,模型的合作率下降了 25%,有效降低企业在合规与品牌方面的风险。


“无害响应率”是衡量模型在对抗违禁或危险内容请求时保持安全响应的一项核心指标,尤其对企业部署而言,这关系到合规性与品牌形象。


Claude Opus 4.1 目前已向以下用户开放使用:已付费的 Claude 用户、通过 Claude Code 用于终端工作流的用户,以及通过 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台接入者。值得一提的是,其定价保持与 Opus 4 相同。


原文链接:

https://www.infoq.com/news/2025/08/anthropic-claude-opus-4-1/

2025-09-01 15:004308

评论

发布
暂无评论

好好编程-物流项目13【登录认证-shiro实现】

Java 程序员 后端

【Promise 源码学习】第四篇 - 翻译并理解 Promise A+ 规范

Brave

源码 Promise 11月日更

如何给网关设计一款专属的权限控制「责任链设计模式」

Java 程序员 后端

学会5位大牛撰写756页大规模Linux集群架构实践PDF,成功入职华为

Java 程序员 后端

如何封装原生的-Java-NIO-以及扩展?详细到让你分分钟搞定Netty

Java 程序员 后端

学会IDEA REST Client后就可以丢掉postman了

Java 程序员 后端

奉劝那些想把编程学好的学弟学妹们!呕心沥血,袒露心声,掏心掏肺

Java 程序员 后端

好险!一入职就遇到MySQL这么大Bug!差点背锅走人!

Java 程序员 后端

解决:http: TLS handshake error from *

liuzhen007

11月日更

好好编程-物流项目07【SpringMVC整合】

Java 程序员 后端

通过程序来介绍Node.js 的几个文件读写和事件监听API

Regan Yue

nodejs js Node 11月日更

如何在本地部署多个Tomcat服务

Java 程序员 后端

字节后端开发3+4面,终于拿到秋招第一个offer(1)

Java 程序员 后端

女生适合学编程吗?

Java 程序员 后端

JavaScript 中对象处理之Object.freeze 与 Object.seal

devpoint

JavaScript Object 11月日更

好好编程-物流项目04【Mybatis逆向工程】

Java 程序员 后端

040022-week3-design

InfoQ_70156470130f

字节后端开发3+4面,终于拿到秋招第一个offer

Java 程序员 后端

字节跳动Java面试题精选——算法与数据结构「跳槽面试必备」

Java 程序员 后端

如何设计一个高性能Elasticsearch mapping

Java 程序员 后端

如何调优 Java 垃圾收集

Java 程序员 后端

学生管理系统架构设计文档

唐敏

「架构实战营」

如何用RabbitMQ实现延迟队列

Java 程序员 后端

如何让Kafka在保证高性能、高吞吐的同时通过各种机制来保证高可用性?

Java 程序员 后端

如何设计一个高可用系统?简单总结了10来种方法,今天全部告诉你们!

Java 程序员 后端

进击的Java(三)

ES_her0

11月日更

字节面试官:你觉得HTTPS能防止重放攻击吗?

Java 程序员 后端

Go语言,垃圾回收、三色标记原理,终于能跟面试官扯皮了!

微客鸟窝

垃圾回收 Go 语言 11月日更

好好编程-物流项目01【搭建maven工程】

Java 程序员 后端

如何给网关设计一款专属的权限控制「责任链设计模式」(1)

Java 程序员 后端

字节跳动武汉招聘2000人,这套JAVA面试题被刷爆了

Java 程序员 后端

Claude Opus 4.1 上线,SWE-bench 验证率 74.5%,重构可靠性与安全性全面升级_AI&大模型_InfoQ精选文章