写点什么

Claude Opus 4.5 夺回编程王座,超 Gemini 3 Pro 和 GPT-5.1

  • 2025-11-25
    北京
  • 本文字数:1899 字

    阅读完需:约 6 分钟

大小:890.94K时长:05:04
Claude Opus 4.5夺回编程王座,超Gemini 3 Pro和GPT-5.1

AI 编程之王又易主了。


昨晚,Anthropic 悄悄按下发布键,Claude Opus 4.5 直接在 编码、Agent、电脑操作 等多项“硬核能力”上全面登顶评测榜,超过 GPT-5.1 和最近在聚光灯下的 Gemini 3 Pro。

目前测试版(Beta 版)已上线,开发者可直接通过 Claude API 调用。



这里面的终端级编程能力(Agentic terminal coding) 是个非常重要的指标,因为该指标体现了 AI 在真实终端(如电脑)环境中工作情况,不仅停留在文本层面;Claude Opus 4.5 也斩获第一,突破 59%。


此外,它还在两小时限时考试里,把“史上最强人类候选者”甩在身后——而且据 Anthropic 首席产品官介绍,用的 token 数量还不到上一代的一半。



每百万 token 的最新定价为:5 美元 /25 美元(输入 / 输出);批量 API 调用的价格更是打了 3 折左右。



Claude 老用户、一家 AI 辅助编码初创公司的 CEO 表示,Opu 系列这波降价来得正好。



还有网友放出一张 Meme 图,锐评这几家大模型的高速宣发节奏。



新一代 Claude 的 Agent 有多强?


Claude Opus 4.5 在编码、Agent、计算机操作等方面,都夺得测评榜第一;下面来看看它的实际使用效果如何。


首先,在编程和系统调试方面,Claude Opus 4.5 能够直接完成工程师级别的任务:它会自己找网络接口,会调试跨系统 bug,还会操作桌面应用、Excel、浏览器。


Anthropic 内部工程师在模型发布前做了大量压力测试,反馈高度一致:Opus 4.5 能处理模糊目标、能在多种方案中权衡取舍、不需要人工把步骤写死。


测试者普遍认为 Opus 4.5 能“真正理解用户需求”,那些几周前 Sonnet 4.5 还几乎做不到的任务,现在对 Opus 4.5 来说已不再是难题。


他们还把模型拉去做了个两小时的高压考试,这本来是给去 Anthropic 应聘性能工程师出的题目,是连许多顶尖候选人都吃不消的 take-home 作业。


结果 Opus 4.5 在时间限制内拿到历史最高分,超过了所有人类候选者。它能读懂复杂代码库、拆解多系统交互,并在模糊指令下自动找出真正的 bug 来源。


虽然这份考试不涉及协作、沟通等软技能,但在纯技术判断与压力下的问题解决能力上,模型首次把“专业工程师”的门槛推向了一个全新位置。


而且 Opus 4.5 编写的代码质量更高,在 SWE-bench Multilingual 的 8 种编程语言中,有 7 种语言的性能比领先。



对于复杂业务决策与工具链操作,比如在τ2-bench 的航空客服场景中,基础经济舱不能改签是硬规定,普通模型都会直接拒绝。


但 Opus 4.5 懂得在规则限制下“迂回求解”——比如,航空公司拒绝给经济舱换航班,它就自己先换升舱、再换航班,两步走解决单步走不了的问题,这在 benchmark 中被算作“未预期的路径”。


长期任务稳定性方面,它也远超前代。在 Vending-Bench 测试中,Opus 4.5 的多步骤任务保持能力,比 Sonnet 4.5 高出 29%,几乎不会“走着走着忘了要干什么”。



在视觉处理方面,Claude Opus 4.5 也遥遥领先于前代模型。据公司 CTO 介绍:


“Claude Opus 4.5 是唯一一个能搞定我们最棘手的 3D 可视化任务的模型...... 过去需要两小时才能完成的任务,现在只需要三十分钟。”


开发者平台也同步更新


为什么 Claude Opus 4.5 的 Agent 会一下子变得这么强?


除了模型层的思考能力显著提升,还有一个重要因素,就是平台级的高级工具调用能力(advanced tool use)升级——模型和平台协同,让 Agent 不仅能说清楚,还能办好事


升级之后的高级工具调用能力,也被放进了 Claude 开发者平台。


在传统 Agent 工作流里,AI 想真正承担“全能助手”的角色,其实面临三道大山——工具过多、调用过重、使用过难。


针对这三个痛点,Opus 4.5 新增了三种“高级工具”,升级之后的高级工具调用能力,也被放进了 Claude 开发者平台:


  • Tool Search Tool: 让模型像搜索引擎一样按需查找工具,而无需预加载全部定义。

  • Programmatic Tool Calling(PTC): 允许 Claude 用代码(如 Python)而非单独的 API 来编排工具调用,减少上下文压力。

  • Tool Use Examples: 教模型正确的工具调用方式,让其“看例子就会用”。


简言之,未来 AI 可以像人一样会选工具、会写自动化脚本、能看懂工具的正确用法


官方提供的 Claude for Excel 是最直观的例子。通过程序化工具调用,所有重载计算都在后台完成,Claude 只接收最终结果,实现了“大量数据不进脑,也能跑得快”。


Claude for Excel 的测试权限,已经扩展至所有 Max、Team 及 Enterprise 用户。


在 Mac 系统上使用 Control+Option+C,在 Windows 系统中使用 Control+Alt+C,即可在 Excel 中打开 Claude。


参考链接:

https://x.com/claudeai/status/1993030546243699119

https://www.anthropic.com/news/claude-opus-4-5

https://www.anthropic.com/engineering/advanced-tool-use


2025-11-25 14:333983

评论

发布
暂无评论

新手必看,避免踩雷---一篇文带你吃透Android开发的所有必备考点,轻松拿offer

android 程序员 移动开发

月薪60k,仍无人问津,腾讯阿里到底有多缺这类程序员,Android软件开发面试题

android 程序员 移动开发

某Android程序员哀叹:自己薪资远远超过了能力,想跳槽又怕外面接不住

android 程序员 移动开发

某一线互联网大厂内部超高质量Flutter+Kotlin笔记!技术与实战篇

android 程序员 移动开发

数据结构(一), BST 二叉搜索树(1),app可视化开发工具

android 程序员 移动开发

有幸在GitHub上get到标星11k的面试笔记,让我成功入职美团Android开发岗

android 程序员 移动开发

未来 Android 开发的从业方向,android开发的基础知识

android 程序员 移动开发

毕业6年,技术人的不惑之路,移动app开发工具

android 程序员 移动开发

数据结构与算法回顾-1:算法的度量和基本数据结构,近期有面试的必看

android 程序员 移动开发

新来的小师妹问我:哥,有哪些是新手程序员不知道的小技巧

android 程序员 移动开发

是让人-提神醒脑-的-MVP、MVVM-关系精讲!,2021最新Android开发面试解答

android 程序员 移动开发

毕业3年,我是如何从年薪10W的拖拽工程师成为30W资深Android开发者!

android 程序员 移动开发

求职注意事项:Android面试中不可犯的这些“九大失误,Android常用面试

android 程序员 移动开发

支付宝 App 构建优化解析:Android 包大小极致压缩,android界面开发实验报告

android 程序员 移动开发

普通Android码农,该如何逆袭月薪-5W-的移动端架构师?

android 程序员 移动开发

最新Android面试题整理,移动端h5页面适配

android 程序员 移动开发

最新字节跳动技术五面(刚拿Offer):一面(1),高级UI都没弄明白凭什么拿高薪

android 程序员 移动开发

毕业3年,我是如何从年薪10W的拖拽工程师成为30W资深Android开发者!(1)

android 程序员 移动开发

支付宝 App 构建优化解析:Android 包大小极致压缩(1),阿里P8亲自讲解

android 程序员 移动开发

本想着只是蹭一蹭,没想到真的进去了,flutter下拉刷新样式

android 程序员 移动开发

本来只想试试水,没想到5面后还真进了字节!,Android程序员如何通过跳槽薪资翻倍

android 程序员 移动开发

正则表达式基础,记得把每一次面试当做经验积累

android 程序员 移动开发

数据结构算法---红黑树,这可能是我看过红黑树讲的最好的文章。

android 程序员 移动开发

新鲜出炉的Android“面筋”,kotlininline函数

android 程序员 移动开发

最新字节跳动技术五面(刚拿Offer):一面,androidrom开发面试题

android 程序员 移动开发

有效治理 BadTokenException,flutter安装androidsdk

android 程序员 移动开发

横向对比Jetpack、RxJava、Glide框架中对组件生命周期Lifecycle感知原理

android 程序员 移动开发

数据结构(一), BST 二叉搜索树,高级程序员面试题

android 程序员 移动开发

文件数据储存之内部储存,移动端开发技术创新

android 程序员 移动开发

最新阿里P7技术体系,Android开发突破50W年薪,kotlin匿名内部类this

android 程序员 移动开发

模板方法模式,flutter刷新机制

android 程序员 移动开发

Claude Opus 4.5夺回编程王座,超Gemini 3 Pro和GPT-5.1_生成式 AI_木子_InfoQ精选文章