在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

Claude Opus 4.5 夺回编程王座,超 Gemini 3 Pro 和 GPT-5.1

  • 2025-11-25
    北京
  • 本文字数:1899 字

    阅读完需:约 6 分钟

大小:890.94K时长:05:04
Claude Opus 4.5夺回编程王座,超Gemini 3 Pro和GPT-5.1

AI 编程之王又易主了。


昨晚,Anthropic 悄悄按下发布键,Claude Opus 4.5 直接在 编码、Agent、电脑操作 等多项“硬核能力”上全面登顶评测榜,超过 GPT-5.1 和最近在聚光灯下的 Gemini 3 Pro。

目前测试版(Beta 版)已上线,开发者可直接通过 Claude API 调用。



这里面的终端级编程能力(Agentic terminal coding) 是个非常重要的指标,因为该指标体现了 AI 在真实终端(如电脑)环境中工作情况,不仅停留在文本层面;Claude Opus 4.5 也斩获第一,突破 59%。


此外,它还在两小时限时考试里,把“史上最强人类候选者”甩在身后——而且据 Anthropic 首席产品官介绍,用的 token 数量还不到上一代的一半。



每百万 token 的最新定价为:5 美元 /25 美元(输入 / 输出);批量 API 调用的价格更是打了 3 折左右。



Claude 老用户、一家 AI 辅助编码初创公司的 CEO 表示,Opu 系列这波降价来得正好。



还有网友放出一张 Meme 图,锐评这几家大模型的高速宣发节奏。



新一代 Claude 的 Agent 有多强?


Claude Opus 4.5 在编码、Agent、计算机操作等方面,都夺得测评榜第一;下面来看看它的实际使用效果如何。


首先,在编程和系统调试方面,Claude Opus 4.5 能够直接完成工程师级别的任务:它会自己找网络接口,会调试跨系统 bug,还会操作桌面应用、Excel、浏览器。


Anthropic 内部工程师在模型发布前做了大量压力测试,反馈高度一致:Opus 4.5 能处理模糊目标、能在多种方案中权衡取舍、不需要人工把步骤写死。


测试者普遍认为 Opus 4.5 能“真正理解用户需求”,那些几周前 Sonnet 4.5 还几乎做不到的任务,现在对 Opus 4.5 来说已不再是难题。


他们还把模型拉去做了个两小时的高压考试,这本来是给去 Anthropic 应聘性能工程师出的题目,是连许多顶尖候选人都吃不消的 take-home 作业。


结果 Opus 4.5 在时间限制内拿到历史最高分,超过了所有人类候选者。它能读懂复杂代码库、拆解多系统交互,并在模糊指令下自动找出真正的 bug 来源。


虽然这份考试不涉及协作、沟通等软技能,但在纯技术判断与压力下的问题解决能力上,模型首次把“专业工程师”的门槛推向了一个全新位置。


而且 Opus 4.5 编写的代码质量更高,在 SWE-bench Multilingual 的 8 种编程语言中,有 7 种语言的性能比领先。



对于复杂业务决策与工具链操作,比如在τ2-bench 的航空客服场景中,基础经济舱不能改签是硬规定,普通模型都会直接拒绝。


但 Opus 4.5 懂得在规则限制下“迂回求解”——比如,航空公司拒绝给经济舱换航班,它就自己先换升舱、再换航班,两步走解决单步走不了的问题,这在 benchmark 中被算作“未预期的路径”。


长期任务稳定性方面,它也远超前代。在 Vending-Bench 测试中,Opus 4.5 的多步骤任务保持能力,比 Sonnet 4.5 高出 29%,几乎不会“走着走着忘了要干什么”。



在视觉处理方面,Claude Opus 4.5 也遥遥领先于前代模型。据公司 CTO 介绍:


“Claude Opus 4.5 是唯一一个能搞定我们最棘手的 3D 可视化任务的模型...... 过去需要两小时才能完成的任务,现在只需要三十分钟。”


开发者平台也同步更新


为什么 Claude Opus 4.5 的 Agent 会一下子变得这么强?


除了模型层的思考能力显著提升,还有一个重要因素,就是平台级的高级工具调用能力(advanced tool use)升级——模型和平台协同,让 Agent 不仅能说清楚,还能办好事


升级之后的高级工具调用能力,也被放进了 Claude 开发者平台。


在传统 Agent 工作流里,AI 想真正承担“全能助手”的角色,其实面临三道大山——工具过多、调用过重、使用过难。


针对这三个痛点,Opus 4.5 新增了三种“高级工具”,升级之后的高级工具调用能力,也被放进了 Claude 开发者平台:


  • Tool Search Tool: 让模型像搜索引擎一样按需查找工具,而无需预加载全部定义。

  • Programmatic Tool Calling(PTC): 允许 Claude 用代码(如 Python)而非单独的 API 来编排工具调用,减少上下文压力。

  • Tool Use Examples: 教模型正确的工具调用方式,让其“看例子就会用”。


简言之,未来 AI 可以像人一样会选工具、会写自动化脚本、能看懂工具的正确用法


官方提供的 Claude for Excel 是最直观的例子。通过程序化工具调用,所有重载计算都在后台完成,Claude 只接收最终结果,实现了“大量数据不进脑,也能跑得快”。


Claude for Excel 的测试权限,已经扩展至所有 Max、Team 及 Enterprise 用户。


在 Mac 系统上使用 Control+Option+C,在 Windows 系统中使用 Control+Alt+C,即可在 Excel 中打开 Claude。


参考链接:

https://x.com/claudeai/status/1993030546243699119

https://www.anthropic.com/news/claude-opus-4-5

https://www.anthropic.com/engineering/advanced-tool-use


2025-11-25 14:334293

评论

发布
暂无评论

以故事+动画方式,让PID知识通俗易懂部分一

芯动大师

AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型

汀丶人工智能

阿里巴巴为什么禁止超过3张表join?

量贩潮汐·WholesaleTide

前端

AI-Compass LLM训练框架生态:整合ms-swift、Unsloth、Megatron-LM等核心框架

汀丶人工智能

AI-Compass RLHF人类反馈强化学习技术栈:集成TRL、OpenRLHF、veRL等框架,涵盖PPO、DPO算法实现大模型人类价值对齐

汀丶人工智能

AI-Compass NLP2SQL模块:集成Chat2DB、DB-GPT、MindsDB等核心工具,实现自然语言到SQL转换的智能化数据查询生态系统

汀丶人工智能

半夜服务器告警不再错过!运维人员必备的语音通知方案

外滩运维专家

电话报警 电话推送 电话接口 监控电话 语音监控

漏洞赏金猎手入门指南:从零开始赚取高额奖金的核心方法论

qife122

渗透测试 漏洞挖掘

AI-Compass(AI百科全书开源):构建最全面的AI学习与实践生态,服务AI全群体

汀丶人工智能

人工智能 大模型

AI-Compass GraphRAG技术生态:集成微软GraphRAG、蚂蚁KAG等主流框架,融合知识图谱与大语言模型实现智能检索生成

汀丶人工智能

AI-Compass DeepSearch深度搜索生态:集成阿里ZeroSearch、字节DeerFlow、MindSearch等前沿平台,实现超越传统关键词匹配的智能信息检索革命

汀丶人工智能

​​从数据到决策:低代码+AI如何简化并加速可视化工作流?

不在线第一只蜗牛

使用AWS KMS和ML-DSA创建后量子签名指南

qife122

AWS KMS ML-DSA

大数据-46 Redis RDB 持久化机制详解:原理、配置与优缺点解析

武子康

Java redis 大数据 缓存 分布式

Recompress for Mac PDF文件压缩软件

晨光熹微

AI-Compass Embedding模型模块:15+主流向量化技术的多模态语义表示生态

汀丶人工智能

StarRocks × MinIO:打造灵活高效的存算分离方案

StarRocks

Docker 存算分离 StarRocks minlo quickstart

淘宝商品图片搜索API响应数据解析

tbapi

淘宝API接口 天猫API接口 淘宝图片搜索接口 淘宝拍立淘接口 天猫拍立淘接口

一篇说人话的文章,告诉你 Django、Flask、FastAPI 到底怎么选

程序员晚枫

django flask FastApi

Flink exactly once sink 实现

Joseph295

摆脱偏见,Mac也要逆袭“游戏圈”

阿拉灯神丁

crossover MacBook M1 如何在Mac上运行win游戏 Mac游戏推荐 游戏本

AI-Compass前沿速览:ChatGPT Agent、Kimi2、Mistral语音模型、Grok AI情感陪伴、百度Tizzy、有言数字人

汀丶人工智能

人工智能 大模型

从Web 2.0到Agentic Web:MCP对智能代理生态构建的推动作用

申公豹

Web

Netflix 数据网关实践

俞凡

架构 大厂实践

MKVToolNix for Mac mkv视频编辑工具

晨光熹微

javax.security.auth.login.LoginException: null (68)

刘大猫

人工智能 数据挖掘 算法 数据分析 LoginException

MCP协议中的不安全凭证存储漏洞分析与安全实践

qife122

MCP 凭证安全

AI招聘机器人公司Paradox.ai因弱密码泄露数百万求职者数据

qife122

网络安全 密码安全

以故事+动画,让PID知识通俗易懂部分二

芯动大师

基于YOLOv8的AI虫子种类识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!

申公豹

yolov8

从 Berlinterop 看三大确定性趋势:以太坊升级与 Layer 2 生态新篇章

NFT Research

Ethereum blockchain web3、

Claude Opus 4.5夺回编程王座,超Gemini 3 Pro和GPT-5.1_生成式 AI_木子_InfoQ精选文章