10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

Claude Opus 4.1 上线,SWE-bench 验证率 74.5%,重构可靠性与安全性全面升级

作者:Hien Luu

  • 2025-09-01
    北京
  • 本文字数:920 字

    阅读完需:约 3 分钟

大小:456.09K时长:02:35
Claude Opus 4.1 上线,SWE-bench 验证率 74.5%,重构可靠性与安全性全面升级

Anthropic 已推出 Claude Opus 4.1,这是针对 Opus 4 的重要升级版,显著增强了模型在多文件项目中的代码可靠性,并提升了模型在长链式交互中的推理能力。该版本在 SWE-bench Verified 基准测试中的得分由 72.5% 改进至 74.5%,说明模型在真实世界编程任务中更加可靠。


图 1:Opus 4.1 与 Opus 4 在 SWE-bench Verified 准确率上的对比


在 Opus 4 的基础上,新版本进一步强化了 Claude 作为编程助手的能力,尤其在开发者常用的多文件场景中,其代码重构的可靠性有了提升——这是许多 AI 助手的薄弱环节。Anthropic 还指出,模型在长时间交互中跟踪推理链和状态的能力有所提升,这对类代理(agent-like)工作流程至关重要。他们将这些更新视为循序渐进但意义显著的改进,助力 Claude 向更实用、可应用于企业级场景的 AI 助手发展。


SWE-bench Verified 被广泛认为是衡量编码助手在真实 GitHub 项目中解决问题能力的重要基准测试。相比于合成基准,SWE-bench 更贴近真实开发场景,因此其得分提升被视为模型在实际编程任务中能力增强的重要指标。


据发布说明所述,GitHub 反馈称 Opus 4.1 在复杂重构任务上性能更强;Rakuten Group 表示,Claude 能在大型代码库中准确指出修正位置,且不会引入无关改动;而 Windsurf 在内部面向初级开发者的基准测试中,观察到比 Opus 4 高出一个标准差的性能跃升——这一跨越被比作从 Sonnet 3.7 升级到 Sonnet 4 的提升。


安全性方面,Claude Opus 4.1 的“无害响应率”(harmless response rate)提升至 98.76%,相比 Opus 4 的 97.27% 有明显提高。这意味着模型在拒绝违规请求时更加可靠。同时,在涉及武器或毒品合成等高风险滥用场景中,模型的合作率下降了 25%,有效降低企业在合规与品牌方面的风险。


“无害响应率”是衡量模型在对抗违禁或危险内容请求时保持安全响应的一项核心指标,尤其对企业部署而言,这关系到合规性与品牌形象。


Claude Opus 4.1 目前已向以下用户开放使用:已付费的 Claude 用户、通过 Claude Code 用于终端工作流的用户,以及通过 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台接入者。值得一提的是,其定价保持与 Opus 4 相同。


原文链接:

https://www.infoq.com/news/2025/08/anthropic-claude-opus-4-1/

2025-09-01 15:001

评论

发布
暂无评论

自6月首次公开募股(IPO)以来,Circle股价涨幅达472%,超越比特币表现

PowerVerse

AI 背单词 App 的核心功能

北京木奇移动技术有限公司

软件外包公司 AI英语学习 APP开发公司

等保测评常见的安全产品

等保测评

什么是等保一体机?

等保测评

数字资产支付 App 的技术框架

北京木奇移动技术有限公司

数字资产 区块链技术 软件外包公司

BandiZip (解压缩软件),适用于多核心压缩、快速拖放、高速压缩等

Rose

强大CAD绘图软件 Bricsys BricsCAD 25浮动许可证-mac/win

Rose

聚焦采购痛点:中烟创新采购文件编制与审核系统如何精准破局

中烟创新

三维模型展UV工具 RizomUV 2023破解版资源-mac/win

Rose

TiDB 社区第四届专栏征文大赛联合墨天轮火热开启,TiDB 业务场景实战、运维开发攻略两大赛道,BOSE 降噪耳机、大疆手持云台、投影仪、运动手环、礼品卡等重磅礼品等你来拿!

TiDB 社区干货传送门

社区活动

CommunityOverCode Asia 2025 Messaging 专题预告,RocketMQ 邀您共探相关议题

Apache RocketMQ

开源 云原生 消息队列 Asia

智慧菜场系统(源码+文档+讲解+演示)

深圳亥时科技

AI赋能灯塔低代码平台,AI应用落地“加速器”

中烟创新

Topaz Video AI Pro(去隔行,放大和运动插值) v7.0.1汉化特别版

Rose

从 Python 演进探寻 AI 与云对编程语言的推动

阿里巴巴云原生

Python 阿里云 云原生

折叠屏进入智能体时代:解构三星Galaxy AI的多模态进化

Alter

信创适配、迁移、改造|中烟创新怀信创初心,赴数字之约

中烟创新

官宣|矩阵起源官网「体验中心」正式上线,文档解析能力开放试用!

MatrixOrigin

Try Hack Me SOAR 实战演练:安全编排、自动化与响应技术解析

qife122

安全运维 蓝队

TablePlus(数据库管理工具) v6.6.1 破解版

Rose

Maxon Cinema 4D S24中文激活版_c4d详细安装教程

Rose

ICML 2025 高分论文!快手&南开提出:模块化双工注意力机制,显著提升多模态大模型情感理解能力!

快手技术

多模态 快手 情感理解

照片经典胶片效果和风格DxO FilmPack 7-mac/win

Rose

Autodesk Maya 2025(玛雅2025)中文激活详细图文安装教程

Rose

sublime text 中文设置教程 及sublime text 激活码分享

Rose

让大模型更懂你,京东零售的算法工程师做了这些事

京东零售技术

留个VKProxy性能测试记录

八苦-瞿昙

Proxy

面试完第一反应是想笑

王中阳Go

Go 面试 后端 大厂

大数据-37 HBase Java API POM 增删改查 详细代码

武子康

Java 大数据 hadoop 分布式 HBase

Dimension 2023中文直装版+安装教程(3D设计工具)

Rose

数据智能化管理技术创新|PingCAP 合作论文入选 SIGMOD 2025,引领下一代数据基础设施发展方向

TiDB 社区干货传送门

Claude Opus 4.1 上线,SWE-bench 验证率 74.5%,重构可靠性与安全性全面升级_AI&大模型_InfoQ精选文章