2025云栖大会,开启通往AGI的未来之旅 了解详情
写点什么

全球最强编码模型 Claude 4 震撼发布:自主编码 7 小时、给出一句指令 30 秒内搞定任务,丝滑无 Bug

  • 2025-05-23
    北京
  • 本文字数:3184 字

    阅读完需:约 10 分钟

大小:1.54M时长:08:58
全球最强编码模型 Claude 4 震撼发布:自主编码7小时、给出一句指令30秒内搞定任务,丝滑无Bug

Claude 4 系列模型发布,编码、推理能力更上一步

 

昨天夜里,在 Anthropic 的首届开发者大会上,Anthropic CEO Dario Amodei 宣布 Claude 4 正式发布。

 


该系列模型下共有两个型号:Claude Opus 4 和 Claude Sonnet 4,为编码、高级推理和 AI 代理设定新的标准。

 


Dario 表示,Claude Opus 4 是该公司迄今为止最强大的 AI 模型,能够连续“数小时”处理长时间运行的任务。

 


Dario 示,在客户测试中,Opus 4 可以自主运行 7 个小时,显著扩展了 AI 代理的可能性。该公司还将其新旗舰产品描述为“世界上最好的编码模型”,Anthropic 的基准测试显示,Opus 4 在编码任务和使用网络搜索等“工具”方面的表现优于谷歌的 Gemini 2.5 Pro、OpenAI 的 o3 推理和 GPT-4.1 模型。

 

Claude Opus 4 也是全球最佳的编码模型,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上均领先。



 

Claude Opus 4 擅长编码和解决复杂问题,为前沿代理产品提供动力。Cursor 称其为编码领域的最新技术,并在复杂代码库理解方面实现了飞跃。Replit 报告称,其跨多个文件的复杂更改的精度和显著改进。

 

除了模型方面的改进外,Claude Opus 4 在内存能力方面也显著超越了所有前代型号。当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 能够熟练地创建和维护“内存文件”来存储关键信息。这能够提升代理在长期任务中的感知能力、连贯性和执行性能——例如,Opus 4 在玩宝可梦时能够创建“导航指南”。



Claude Sonnet 4 是一款更经济实惠、更注重效率的型号,更适合执行常规任务,它取代了 2 月份发布的 3.7 Sonnet 型号。Dario 表示,Sonnet 4 提供“卓越的编码和推理能力”,同时提供更精确的响应。他补充说,与 3.7 Sonnet 相比,这两款型号在完成任务时走捷径和钻空子的可能性降低了 65%,而且当开发人员为 Claude 提供本地文件访问权限时,它们能够更好地存储长期任务的关键信息。

 

Claude Sonnet 4 在 Sonnet 3.7 业界领先的功能基础上进行了显著提升,在 SWE-bench 上实现了 72.7% 的出色编码效率。该模型在内部和外部用例的性能和效率之间取得了平衡,并增强了可控性,从而更好地控制实现。虽然在大多数领域都无法与 Opus 4 匹敌,但它实现了功能和实用性的最佳结合。

 

GitHub 表示,Claude Sonnet 4 在代理场景中表现出色,并将作为 GitHub Copilot 中新编码代理的基础模型引入。

 

Manus 强调了其在执行复杂指令、清晰推理和美观输出方面的改进。iGent 报告称,Sonnet 4 在自主多功能应用程序开发方面表现出色,并显著改进了问题解决和代码库导航能力,将导航错误率从 20% 降至接近零。

 

Sourcegraph 表示,该模型有望成为软件开发的一大飞跃——能够更长时间地保持正轨,更深入地理解问题,并提供更优雅的代码质量。Augment Code 报告称其成功率更高,代码编辑更精准,复杂任务的处理也更加细致,使其成为其主要模型的首选。

 

Claude Opus 4 和 Sonnet 4 是混合模型,提供两种模式:近乎即时的响应和用于更深层次推理的扩展思维。Pro、Max、Team 和 Enterprise Claude 套餐包含两种模型和扩展思维,Sonnet 4 也面向免费用户开放。

 

两种模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 为每百万 token(输入/输出)15~75 美元,Sonnet 4 为 3~15 美元。

 

模型之外,Claude Code 已发布

 

 

除了新模型外,Anthropic 的 Claude Code agentic 命令行工具在 2 月份有限预览后现已正式发布。

 

Anthropic 表示,在研究预览期间收到大量积极反馈后,Anthropic 正在扩展开发者与 Claude 的协作方式。Claude Code 现在支持通过 GitHub Actions 执行后台任务,并与 VS Code 和 JetBrains 原生集成,可直接在文件中显示编辑内容,实现无缝的结对编程。

 

Anthropic 还表示,为了应对来自 OpenAI、谷歌和 Meta 的竞争,该公司正在转型,提供“更频繁的模型更新”。


 

Anthropic 的其他更新还包括:

 

  • 使用工具进行扩展思考(测试版):两种模型都可以在扩展思考过程中使用工具(例如网络搜索),从而使 Claude 能够在推理和工具使用之间交替进行以改善响应。

 

  • 两种模型都可以并行使用工具,更精确地遵循指令,并且当开发人员授予其访问本地文件的权限时,可以显著提高记忆能力,提取和保存关键事实以保持连续性并随着时间的推移建立隐性知识。

 

  • 新的 API 功能:Anthropic 在 Anthropic API 上发布了四项新功能,使开发人员能够构建更强大的 AI 代理:代码执行工具、MCP 连接器、文件 API 以及将提示缓存长达一小时的能力。

 


Anthropic 上周确认,其第一季度年化营收达到 20 亿美元,较上一季度的 10 亿美元增长了一倍多。该公司营收主管凯特·詹森 (Kate Jensen) 最近接受 CNBC 采访时表示,Anthropic 年度消费超过 10 万美元的客户数量较去年同期增长了八倍。

 

华尔街继续向 Anthropic 等人工智能初创公司投入资金:该公司上周获得了 25 亿美元的五年期循环信贷额度,以增强其在不断扩大且昂贵的人工智能竞争中的流动性。

 

网友实测:很强大

 

Claude 4 的发布在社交平台上引发了诸多关注。有网友第一时间进行了实测,随后表示,

 

“Claude 4 强大到令人发指!我就输入一句‘给我做个 CRM 仪表盘’的指令,它 30 秒就搞定了,我整个人都惊呆了!!”



另一位第一时间实测了 Claude 4 的网友表示,这编码能力绝对要远远优于 3.5/3.7 版本。


第一次尝试就用 Claude Sonnet 4 一次性通关了一个游戏,而且我还在游戏过程中把客厅吸尘了!没有任何 bug,就这么丝滑。

 


还有位提前体验了 Claude 4(不确定具体是哪个版本)的用户表示,它的表现让人印象深刻。

 

“举个有趣的例子,当我输入提示词:把《皮拉内西》这本书做成 p5js 的 3D 空间。帮我实现一下——仅仅这样一句话,没有任何额外提示,它就生成了这个作品(注意那些鸟、水体和光影效果)。”

 


推理模型成“兵家必争之地”

2025 年,人工智能行业已显著转向推理模型。这些系统在做出反应之前会系统地解决问题,模拟类似人类的思维过程,而不是简单地根据训练数据进行模式匹配。

 

OpenAI 于去年 12 月凭借其“o”系列开启了这一转变,随后谷歌 Gemini 2.5 Pro 也推出了实验性的“深度思考”功能。DeepSeek 的 R1 模型凭借其卓越的问题解决能力和极具竞争力的价格意外地占领了市场份额。

 

这一转变标志着人们使用人工智能方式的根本性变革。根据 Poe 的《2025 年春季人工智能模型使用趋势报告》,推理模型的使用量在短短四个月内增长了五倍,占所有人工智能交互的比例从 2%增长到 10%。用户越来越多地将人工智能视为解决复杂问题的思维伙伴,而非简单的问答系统。

 

随着新型人工智能模型引起用户兴趣,推理类信息的比例在 2025 年初大幅上升。(图片来源:Poe)


Claude 的新模型的独特之处在于将工具的使用直接融入推理过程。这种同步研究与推理的方法比以往先收集信息再进行分析的系统更贴近人类认知。在推理过程中暂停、查找数据并融入新发现的能力,创造了更自然、更有效的解决问题体验。

 

Anthropic 的新发布时机凸显了高级人工智能领域竞争的加速。在 OpenAI 推出 GPT-4.1 系列仅五周后,Anthropic 就推出了在关键指标上挑战甚至超越它的模型。谷歌本月初更新了其 Gemini 2.5 系列,而 Meta 最近发布了其 Llama 4 模型,该模型具有多模态功能和 1000 万个 token 上下文窗口。

 

在这个日益专业化的市场中,每个主要实验室都展现出独特的优势。OpenAI 在通用推理和工具集成方面处于领先地位,谷歌在多模态理解方面表现出色,而 Anthropic 则在持续性能和专业编码应用方面独占鳌头。

 

这对企业客户而言具有重大的战略意义。如今,企业面临着日益复杂的决策,即针对特定用例部署哪些 AI 系统,没有哪个模型能够在所有指标上占据主导地位。这种碎片化有利于成熟的客户,他们可以利用专业的 AI 优势,同时也挑战了寻求简单统一解决方案的公司。

 

参考链接:

https://www.anthropic.com/news/claude-4

2025-05-23 06:008502
用户头像
李冬梅 加V:busulishang4668

发布了 1163 篇内容, 共 780.9 次阅读, 收获喜欢 1286 次。

关注

评论

发布
暂无评论

HarmonyOS NEXT应用开发-Notification Kit(用户通知服务)通知类型、级别与渠道

李洋-蛟龙腾飞

Java面试高频核心宝典(含答案)

Geek_Yin

Java 程序员 java面试 Java面试题

金九银十春招必看的2025年Java高频面试题汇总(附答案)

Geek_Yin

Java 编程 程序员 java面试 Java面试题

一文搞懂K8s中的RBAC认证授权

不在线第一只蜗牛

Kubernetes 容器 云原生

Go版本的JetCache缓存框架终于来啦

daoshenzzg

Go 缓存 开源

低代码“偷懒”技巧,我建议全公司学!

引迈信息

视觉与图像识别自动化测试 | 音频转文字

测试人

人工智能

“深时数字地球”新进展!科学智能助推地球科学研究范式变革

ModelWhale

科学智能 地球科学 AI4S DDE深时数字地球

DePIN代币正构建 Web3 和 AI 融合的新范式

PowerVerse

AI Web 3.0 DAO DePIN gpu 算力

详细教程!Ollama本地部署新版DeepSeek-R1,如何实现远程访问?

贝锐

内网穿透 DeepSeek R1 模型

DeFi模式:去中心化金融架构与流动性池设计

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 公链开发代币开发

Java集合源码--ArrayList的可视化操作过程

电子尖叫食人鱼

Java 算法

为什么别人工资比你高?「程序员性能优化手册」你有吗

Geek_Yin

Java 编程 程序员

拒绝停服,随时回退:MS SQL 到 ≈ 的无缝数据库双向迁移方案

tapdata

容灾备份 高可用数据库迁移 mssql迁移 sqlserver迁移 双向同步

从20年架构师的视角解读高性能Java架构核心知识点!

程序员高级码农

Java 程序员

内网im,局域网环境下BeeWorks 如何保障数据安全?

BeeWorks

即时通讯 企业级应用

ETLCloud可能遇到的问题有哪些?常见坑位解析

谷云科技RestCloud

数据处理 ETL 数据集成工具 实时数据集成 离线数据集成

云智慧再次入选2024亚太区ITSM软件市场TOP10

云智慧AIOps社区

ITSM ITSM软件 工单系统

DAO模式:去中心化治理与代币激励设计

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 公链开发代币开发

【堡垒机小知识】堡垒机可以做到应用透明吗?

行云管家

堡垒机 IT运维 应用透明

KubeCon 抢鲜 | Kmesh与你共创高性能流量治理更优方案

华为云原生团队

云计算 容器 云原生

从CPU冒烟到丝滑体验:算法SRE性能优化实战全揭秘|得物技术

得物技术

cpu

HarmonyOS运动开发:打造你的专属运动节拍器

王二蛋和他的张大花

鸿蒙 os

人工智能在音频、视觉、多模态领域的应用

测试人

Go 切片拷贝性能揭示:大切片总体拷贝时间更长,但单元素成本更低

异常君

Go 性能 内存 优化 切片

甘其果:以《道德经》智慧破局生鲜零售,缔造社区水果新标杆

极客天地

BeeWorks im即时通讯软件:政企通讯首选

BeeWorks

即时通讯 IM 企业级应用

博睿数据×华为, 共筑智慧金融新未来

博睿数据

一文让你简单了解国密堡垒机定义以及作用

行云管家

堡垒机 国密算法 国密堡垒机 信创国密

智慧党建系统(源码+文档+讲解+演示)

深圳亥时科技

跨端生态×AI赋能:移动研发模式的双擎驱动

xuyinyin

全球最强编码模型 Claude 4 震撼发布:自主编码7小时、给出一句指令30秒内搞定任务,丝滑无Bug_生成式 AI_李冬梅_InfoQ精选文章