
AI 编程之王又易主了。
昨晚,Anthropic 悄悄按下发布键,Claude Opus 4.5 直接在 编码、Agent、电脑操作 等多项“硬核能力”上全面登顶评测榜,超过 GPT-5.1 和最近在聚光灯下的 Gemini 3 Pro。
目前测试版(Beta 版)已上线,开发者可直接通过 Claude API 调用。
这里面的终端级编程能力(Agentic terminal coding) 是个非常重要的指标,因为该指标体现了 AI 在真实终端(如电脑)环境中工作情况,不仅停留在文本层面;Claude Opus 4.5 也斩获第一,突破 59%。
此外,它还在两小时限时考试里,把“史上最强人类候选者”甩在身后——而且据 Anthropic 首席产品官介绍,用的 token 数量还不到上一代的一半。
每百万 token 的最新定价为:5 美元 /25 美元(输入 / 输出);批量 API 调用的价格更是打了 3 折左右。
Claude 老用户、一家 AI 辅助编码初创公司的 CEO 表示,Opu 系列这波降价来得正好。
还有网友放出一张 Meme 图,锐评这几家大模型的高速宣发节奏。
新一代 Claude 的 Agent 有多强?
Claude Opus 4.5 在编码、Agent、计算机操作等方面,都夺得测评榜第一;下面来看看它的实际使用效果如何。
首先,在编程和系统调试方面,Claude Opus 4.5 能够直接完成工程师级别的任务:它会自己找网络接口,会调试跨系统 bug,还会操作桌面应用、Excel、浏览器。
Anthropic 内部工程师在模型发布前做了大量压力测试,反馈高度一致:Opus 4.5 能处理模糊目标、能在多种方案中权衡取舍、不需要人工把步骤写死。
测试者普遍认为 Opus 4.5 能“真正理解用户需求”,那些几周前 Sonnet 4.5 还几乎做不到的任务,现在对 Opus 4.5 来说已不再是难题。
他们还把模型拉去做了个两小时的高压考试,这本来是给去 Anthropic 应聘性能工程师出的题目,是连许多顶尖候选人都吃不消的 take-home 作业。
结果 Opus 4.5 在时间限制内拿到历史最高分,超过了所有人类候选者。它能读懂复杂代码库、拆解多系统交互,并在模糊指令下自动找出真正的 bug 来源。
虽然这份考试不涉及协作、沟通等软技能,但在纯技术判断与压力下的问题解决能力上,模型首次把“专业工程师”的门槛推向了一个全新位置。
而且 Opus 4.5 编写的代码质量更高,在 SWE-bench Multilingual 的 8 种编程语言中,有 7 种语言的性能比领先。
对于复杂业务决策与工具链操作,比如在τ2-bench 的航空客服场景中,基础经济舱不能改签是硬规定,普通模型都会直接拒绝。
但 Opus 4.5 懂得在规则限制下“迂回求解”——比如,航空公司拒绝给经济舱换航班,它就自己先换升舱、再换航班,两步走解决单步走不了的问题,这在 benchmark 中被算作“未预期的路径”。
在长期任务稳定性方面,它也远超前代。在 Vending-Bench 测试中,Opus 4.5 的多步骤任务保持能力,比 Sonnet 4.5 高出 29%,几乎不会“走着走着忘了要干什么”。
在视觉处理方面,Claude Opus 4.5 也遥遥领先于前代模型。据公司 CTO 介绍:
“Claude Opus 4.5 是唯一一个能搞定我们最棘手的 3D 可视化任务的模型...... 过去需要两小时才能完成的任务,现在只需要三十分钟。”
开发者平台也同步更新
为什么 Claude Opus 4.5 的 Agent 会一下子变得这么强?
除了模型层的思考能力显著提升,还有一个重要因素,就是平台级的高级工具调用能力(advanced tool use)升级——模型和平台协同,让 Agent 不仅能说清楚,还能办好事。
升级之后的高级工具调用能力,也被放进了 Claude 开发者平台。
在传统 Agent 工作流里,AI 想真正承担“全能助手”的角色,其实面临三道大山——工具过多、调用过重、使用过难。
针对这三个痛点,Opus 4.5 新增了三种“高级工具”,升级之后的高级工具调用能力,也被放进了 Claude 开发者平台:
Tool Search Tool: 让模型像搜索引擎一样按需查找工具,而无需预加载全部定义。
Programmatic Tool Calling(PTC): 允许 Claude 用代码(如 Python)而非单独的 API 来编排工具调用,减少上下文压力。
Tool Use Examples: 教模型正确的工具调用方式,让其“看例子就会用”。
简言之,未来 AI 可以像人一样会选工具、会写自动化脚本、能看懂工具的正确用法。
官方提供的 Claude for Excel 是最直观的例子。通过程序化工具调用,所有重载计算都在后台完成,Claude 只接收最终结果,实现了“大量数据不进脑,也能跑得快”。
Claude for Excel 的测试权限,已经扩展至所有 Max、Team 及 Enterprise 用户。
在 Mac 系统上使用 Control+Option+C,在 Windows 系统中使用 Control+Alt+C,即可在 Excel 中打开 Claude。
参考链接:
https://x.com/claudeai/status/1993030546243699119
https://www.anthropic.com/news/claude-opus-4-5
https://www.anthropic.com/engineering/advanced-tool-use







评论