Claude Opus 4.5夺回编程王座，超Gemini 3 Pro和GPT-5.1

AI 编程之王又易主了。

昨晚，Anthropic 悄悄按下发布键，Claude Opus 4.5 直接在 编码、Agent、电脑操作 等多项“硬核能力”上全面登顶评测榜，超过 GPT-5.1 和最近在聚光灯下的 Gemini 3 Pro。

目前测试版（Beta 版）已上线，开发者可直接通过 Claude API 调用。

这里面的终端级编程能力（Agentic terminal coding） 是个非常重要的指标，因为该指标体现了 AI 在真实终端（如电脑）环境中工作情况，不仅停留在文本层面；Claude Opus 4.5 也斩获第一，突破 59%。

此外，它还在两小时限时考试里，把“史上最强人类候选者”甩在身后——而且据 Anthropic 首席产品官介绍，用的 token 数量还不到上一代的一半。

每百万 token 的最新定价为：5 美元 /25 美元（输入 / 输出）；批量 API 调用的价格更是打了 3 折左右。

Claude 老用户、一家 AI 辅助编码初创公司的 CEO 表示，Opu 系列这波降价来得正好。

还有网友放出一张 Meme 图，锐评这几家大模型的高速宣发节奏。

新一代 Claude 的 Agent 有多强？

Claude Opus 4.5 在编码、Agent、计算机操作等方面，都夺得测评榜第一；下面来看看它的实际使用效果如何。

首先，在编程和系统调试方面，Claude Opus 4.5 能够直接完成工程师级别的任务：它会自己找网络接口，会调试跨系统 bug，还会操作桌面应用、Excel、浏览器。

Anthropic 内部工程师在模型发布前做了大量压力测试，反馈高度一致：Opus 4.5 能处理模糊目标、能在多种方案中权衡取舍、不需要人工把步骤写死。

测试者普遍认为 Opus 4.5 能“真正理解用户需求”，那些几周前 Sonnet 4.5 还几乎做不到的任务，现在对 Opus 4.5 来说已不再是难题。

他们还把模型拉去做了个两小时的高压考试，这本来是给去 Anthropic 应聘性能工程师出的题目，是连许多顶尖候选人都吃不消的 take-home 作业。

结果 Opus 4.5 在时间限制内拿到历史最高分，超过了所有人类候选者。它能读懂复杂代码库、拆解多系统交互，并在模糊指令下自动找出真正的 bug 来源。

虽然这份考试不涉及协作、沟通等软技能，但在纯技术判断与压力下的问题解决能力上，模型首次把“专业工程师”的门槛推向了一个全新位置。

而且 Opus 4.5 编写的代码质量更高，在 SWE-bench Multilingual 的 8 种编程语言中，有 7 种语言的性能比领先。

对于复杂业务决策与工具链操作，比如在τ2-bench 的航空客服场景中，基础经济舱不能改签是硬规定，普通模型都会直接拒绝。

但 Opus 4.5 懂得在规则限制下“迂回求解”——比如，航空公司拒绝给经济舱换航班，它就自己先换升舱、再换航班，两步走解决单步走不了的问题，这在 benchmark 中被算作“未预期的路径”。

在长期任务稳定性方面，它也远超前代。在 Vending-Bench 测试中，Opus 4.5 的多步骤任务保持能力，比 Sonnet 4.5 高出 29%，几乎不会“走着走着忘了要干什么”。

在视觉处理方面，Claude Opus 4.5 也遥遥领先于前代模型。据公司 CTO 介绍：

“Claude Opus 4.5 是唯一一个能搞定我们最棘手的 3D 可视化任务的模型...... 过去需要两小时才能完成的任务，现在只需要三十分钟。”

为什么 Claude Opus 4.5 的 Agent 会一下子变得这么强？

除了模型层的思考能力显著提升，还有一个重要因素，就是平台级的高级工具调用能力（advanced tool use）升级——模型和平台协同，让 Agent 不仅能说清楚，还能办好事。

升级之后的高级工具调用能力，也被放进了 Claude 开发者平台。

在传统 Agent 工作流里，AI 想真正承担“全能助手”的角色，其实面临三道大山——工具过多、调用过重、使用过难。

针对这三个痛点，Opus 4.5 新增了三种“高级工具”，升级之后的高级工具调用能力，也被放进了 Claude 开发者平台：

Tool Search Tool： 让模型像搜索引擎一样按需查找工具，而无需预加载全部定义。
Programmatic Tool Calling（PTC）： 允许 Claude 用代码（如 Python）而非单独的 API 来编排工具调用，减少上下文压力。
Tool Use Examples： 教模型正确的工具调用方式，让其“看例子就会用”。

简言之，未来 AI 可以像人一样会选工具、会写自动化脚本、能看懂工具的正确用法。

官方提供的 Claude for Excel 是最直观的例子。通过程序化工具调用，所有重载计算都在后台完成，Claude 只接收最终结果，实现了“大量数据不进脑，也能跑得快”。

Claude for Excel 的测试权限，已经扩展至所有 Max、Team 及 Enterprise 用户。

在 Mac 系统上使用 Control+Option+C，在 Windows 系统中使用 Control+Alt+C，即可在 Excel 中打开 Claude。

参考链接：

https://x.com/claudeai/status/1993030546243699119