10 月 23 - 25 日,QCon 上海站即将召开,9折优惠最后2天 了解详情
写点什么

Anthropic 深夜祭出 Claude Sonnet 4.5,能自主连续工作 30 小时!CEO:它更像你的同事

  • 2025-09-30
    北京
  • 本文字数:2039 字

    阅读完需:约 7 分钟

大小:1006.11K时长:05:43
Anthropic深夜祭出Claude Sonnet 4.5,能自主连续工作30小时!CEO:它更像你的同事

昨夜凌晨,人工智能企业 Anthropic 正式推出新一代模型 Claude Sonnet 4.5,官方直言其为 “世界上最好的编码模型、构建复杂代理的最强大工具、使用计算机的最佳模型”。伴随模型发布的还有 Claude Agent SDK 开发工具包及系列产品升级,标志着 AI 已具备独立完成生产级开发任务的能力。​

 

Anthropic 联合创始人兼首席科学官贾里德·卡普兰 (Jared Kaplan) 在接受 CNBC 采访时表示:“人们注意到了这种模型,因为它更智能,更像同事,遇到问题并解决问题时与它一起工作很有趣。”

 

该公司表示,该模型可以生成更高质量的代码,更好地识别代码改进,并且可以更可靠地遵循指令。 

 

性能跑分登顶:从 “写代码” 到 “交付产品” 的跨越​

Claude Sonnet 4.5 的核心突破体现在工程落地能力上。在衡量真实软件编码能力的 SWE-bench Verified 基准测试中,该模型以 77.2% 的准确率名列前茅,较前代提升近 20 个百分点。更值得关注的是其长周期任务处理能力 —— 在实测中,它能自主运行 30 小时,生成 1.1 万行代码,完整开发出类似钉钉的企业聊天应用,涵盖数据库配置、域名注册、合规审计等全流程,成为首个实现 “生产级交付” 的 AI 模型。​

 


在计算机操作领域,其 OSWorld 基准测试得分从四个月前的 42.2% 跃升至 61.4%,领先行业同类产品。金融、法律等专业领域测试显示,其推理能力较上一代 Opus 4.1 提升 30% 以上,数学问题解决精度显著优化。“用户会发现它更像同事,合作解决问题时非常高效。”Anthropic 研究员 Jared Kaplan 表示。​

 

该模型还显示出在推理和数学等广泛评估方面的改进能力:

 


金融、法律、医学和 STEM 领域的专家发现,与包括 Opus 4.1 在内的旧模型相比,Sonnet 4.5 表现出了更出色的领域特定知识和推理能力。

 


产品生态升级:代码开发全流程体验重构​

针对开发者核心需求,Anthropic 同步推出多项产品功能更新:​

 

  • Claude Code 2.0:新增呼声极高的 “检查点” 功能,支持代码进度保存与即时回滚,配合刷新的终端界面与原生 VS Code 扩展,大幅提升开发效率;​

  • API 能力强化:新增上下文编辑与记忆工具,使 AI 代理的持续运行时间从 7 小时延长至 30 小时,可处理更复杂的多步骤任务;​

  • 交互体验革新:Claude 应用内直接集成代码执行与文件创建功能,支持在对话中生成电子表格、幻灯片等文档;​

  • 浏览器拓展落地:面向上月加入候补名单的 Max 订阅用户,开放 Claude for Chrome 扩展程序下载使用。​

 

开放 Agent SDK:赋能开发者构建专属智能助手​

此次发布的重磅工具 Claude Agent SDK,将 Anthropic 内部开发 Claude Code 的核心基础设施对外开放。该工具包解决了 AI 代理开发中的三大痛点:长期任务记忆管理、自主性与用户控制的平衡、多代理协同调度。开发者可基于此快速搭建定制化 AI 助手,覆盖项目管理、数据处理、客户服务等场景。​

 

“我们把支撑前沿产品的构建模块共享出来,让开发者无需从零搭建基础设施。”Anthropic 首席产品官 Mike Krieger 介绍,该 SDK 已在 Canva 等企业的工程团队中得到验证,能显著提升代码库管理与产品研究效率。​

 

误报率较初代模型降低 90%

 

据介绍,Claude Sonnet 4.5 不仅是 Anthropic 功能最强大的模型,也是 Anthropic 迄今为止最符合前沿技术的模型。Claude 的改进功能以及广泛的安全培训使 Anthropic 能够显著改善该模型的行为,减少诸如谄媚、欺骗、权力追求以及鼓励妄想思维倾向等令人担忧的行为。对于该模型的代理和计算机使用功能,Anthropic 在防御即时注入攻击方面也取得了显著进展,而即时注入攻击是这些功能用户面临的最严重风险之一。

 

Claude Sonnet 4.5 通过 AI 安全等级 3(ASL-3)认证,配备化学、生物等危险内容分类检测器,误报率较初代降低 90%,同时大幅减少欺骗性回答、权力寻求等风险行为。​

 


在商业策略上,Anthropic 保持价格亲民,API 调用费用与 Claude Sonnet 4 完全一致,为每百万代币输入 3 美元、输出 15 美元。开发者即日起可通过 “claude-sonnet-4-5” 接口直接调用该模型。​

 

Anthropic 首席产品官 Mike Krieger 表示,Claude Sonnet 4.5 将成为用户的默认选择,并且 Anthropic 推荐该模型用于“基本上所有用例”。

 

即便如此,用户仍然有选择。付费用户仍然可以选择使用 Opus,而拥有特定工作流程的用户如果还没准备好在一夜之间迁移,可以选择老一代的 Sonnet,他说道。  

 

Krieger 补充道,Claude Sonnet 4.5 比 Claude Opus 4.1 小,但“几乎在各个方面”都比它更智能。 

 

行业分析师指出,Claude Sonnet 4.5 的发布标志着 AI 从 “辅助工具” 向 “独立生产力” 的跨越,而开放 SDK 的举措或将加速 AI 代理技术在各行业的落地应用。​

 

Kaplan 说:“我认为这是我们在过去一年或一年半中看到的最大安全飞跃。” 

 

Anthropic 即将推出更多型号。Kaplan 表示,更好的型号即将推出,其中“很可能包括 Opus”。

 

“不敢保证,”他说,“但我想我们年底前可能会再推出一两部作品。”

 

参考链接:

https://www.cnbc.com/2025/09/29/anthropic-claude-ai-sonnet-4-5.html

2025-09-30 09:1913

评论

发布
暂无评论

企业应用现代化实用教程 | 微服务架构怎么选?Dubbo、Spring Cloud、Istio终极对决

York

微服务 云原生 Spring Cloud istio Service Mesh (ASM)

node在大前端中的应用场景

达摩

nodejs

如何选择靠谱的Java培训

小谷哥

Java培训需要多长时间

小谷哥

开源公开课丨ChengYing安装原理剖析

袋鼠云数栈

数字藏品系统开发:详细功能介绍

开源直播系统源码

NFT 数字藏品 数字藏品系统软件开发 NFT数字藏品系统

UI设计培训班出来后找工作吗?

小谷哥

基于 LowCodeEngine 的调试能力建设与实践

阿里巴巴终端技术

前端 低代码

leetcode 409 Longest Palindrome 最长回文串(简单)

okokabcd

LeetCode 算法与数据结构

麦聪软件为云上客户提供DaaS服务,入驻国内Top3云市场

雨果

公有云私有云 DaaS数据即服务

Quick Tracking「全域采集与增长分析」,破局全域营销之道

瓴羊企业智能服务

开源治理:安全的关键

SEAL安全

开源 开源文化 开源安全 开源安全与治理

同时将博客部署到github和conding

Five

前端 博客搭建 8月月更

2022年无糖茶饮料发展洞察分析

易观分析

无糖茶 行业洞察

华为大数据开发平台 DataFactory 行业应用典型案例

宇宙之一粟

华为云 大数据技术 8月月更

前端高频面试题(四)(附答案)

helloworld1024fd

JavaScript 前端

【算法实践】他山之石,可以攻玉--利用完全二叉树快速实现堆排序

迷彩

Python 数据结构 算法 二叉堆排序 8月月更

软件测试 | 测试开发 | app自动化测试之Appium 原理 与 JsonWP 协议分析

测吧(北京)科技有限公司

json

佛山等保测评机构有哪些?怎么做?

行云管家

等保 等级测评 佛山

如何应对突发的流量激增和服务器过载问题

NGINX开源社区

nginx 流量控制 高速缓存

大数据培训机构学习后就业前景如何

小谷哥

开源交流丨任务or实例 详解大数据DAG调度系统Taier任务调度

袋鼠云数栈

大学毕业后如何选择大数据培训机构

小谷哥

授人为师,首期明道云零代码教练员研修班圆满结束

明道云

何止一个惨字形容,水滴Java面试一轮游,壮烈了,问啥啥不会,数据库血崩,我该怎么办?

钟奕礼

Java 编程 程序员 后端 java面试

云监控是什么意思?哪个软件好?

行云管家

云计算 云平台 云监控

前端高频面试题(三)(附答案)

helloworld1024fd

JavaScript 前端

分布式协同AI基准测试项目Ianvs:工业场景提升5倍研发效率

华为云开发者联盟

云计算 云原生

JDK1.6中String类的坑,快让我裂开了…

华为云开发者联盟

开发

长安链p2p-Liquid学习笔记

长安链

数字藏品系统开发:(开发NFT数字藏品源码)

开源直播系统源码

NFT 数字藏品 数字藏品系统

Anthropic深夜祭出Claude Sonnet 4.5,能自主连续工作30小时!CEO:它更像你的同事_AI&大模型_李冬梅_InfoQ精选文章