限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

Anthropic 发布 Claude 4 系列模型和 Claude Code

  • 2025-06-05
    北京
  • 本文字数:1215 字

    阅读完需:约 4 分钟

大小:593.52K时长:03:22
Anthropic发布Claude 4系列模型和Claude Code

Anthropic发布了Claude Opus 4和Sonnet 4,这是其 Claude 系列大语言模型(LLM)的最新版本。这两个模型都支持扩展思考、工具使用和记忆改进。在编码基准测试中,Claude 4 Opus 的表现超过了其他 LLM。

 

在“用Claude编码”活动中,Anthropic 宣布了这一消息。Claude 4 模型是“混合”模型:它们可以快速回答问题,也可以进行扩展思考。在扩展思考模式下,这些模型可以使用工具(如 Web 搜索),同时运行多个工具,并使用本地文件进行记忆。在SWE-bench编码基准测试中,Claude Opus 4 得分为 72.5%,在Terminal-bench编码基准测试中,得分为 43.2%,超过了所有其他编码模型。此外,Anthropic 还宣布正式发布Claude Code,这是 Anthropic 推出的编码代理,提供了 Beta 版的扩展,用于集成JetBrainsVS Code。根据 Anthropic 的说法:

 

这些模型是朝着虚拟协作者迈出的一大步——保持完整的上下文,专注于更长期的项目,并推动变革性的影响。它们都经过了广泛的测试和评估,为的是能够最小化风险,并提供最大的安全性,包括实施更高 AI 安全级别的措施,如 ASL-3。我们非常期待看到你们对它们的创造性应用。

 

与之前的版本相比,Claude 4 还包括其他几项改进。Anthropic 声称,Claude 4 将使用“shortcuts”来完成代理任务的可能性降低了 65%。它还使用本地文件存储数据,“在记忆能力上大大超过了以前所有的模型”。在思考模式下,思维链输出总结只需“大约 5%的时间”,减少了显示所需的空间。


图片来源:Anthropic的Claude 4发布公告

 

在 Hacker News 的讨论中,用户想知道新模型的改进是否足以“证明全部版本都增加的合理性”。一位用户回复说:

 

我是一名开发人员,我已经尝试使用 AI 进行氛围编码(vibe code)两年了。这是第一次,我能够在不需要每一步都手动干预的情况下通过氛围编码完成一个应用。不是说它完美,也不是说我会在未经人类审查的情况下信任它,但我确实在不到 24 小时内通过氛围编码实现了一个完整的生产就绪的 iOS/Android/Web 应用,可以接受 24 小时内付款。除了告诉它我接下来想做什么外,几乎不需要其他任何手动干预。

 

开源开发者 Simon Willison 对发布会做了实时报道。他还深入研究Claude 4系统卡片,上面记录了 Anthropic 安全测试的几个场景和结果。

 

Anthropic 的系统卡片总是值得一看。对于新发布的 Opus 4 和 Sonnet 4,它们的系统卡片有一些特别惹眼的说明。该系统卡片有 120 页——几乎是 Claude 3.7 Sonnet 系统卡片长度的三倍!如果你正在寻找一些令人愉快的硬科幻小说……这份文件绝对能满足你。

 

根据 Anthropic 的测试,在某些情况下,他们的模型会采取“极端行动”,虽然这些行动“罕见且难以引发,但仍然比早期模型更常见。”作为 Responsible Scaling Policy(RSP)的一部分,随着 Claude 4 的发布,Anthropic 决定激活他们的部署和安全标准AI安全级别3(ASL-3),其中包括加强内部安全,防止模型权重盗窃。


声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:https://www.infoq.com/news/2025/06/anthropic-claude-4/

2025-06-05 12:006961

评论

发布
暂无评论

UINO优锘科技受邀在2023全球数字经济大会数字孪生赋能城市数字化转型论坛发表演讲

ThingJS数字孪生引擎

数字化转型 智慧城市 数字孪生 #web3D ThingJS

Docker学习路线3:安装设置

小万哥

Docker 容器 后端 开发 开发程序员

如果小程序越来越多,是不是会直接代替App?

Onegun

小程序 小程序容器

Hybrid Embedding:蚂蚁集团万亿参数稀疏 CTR 模型解决方案

AI Infra

AI 开发者 海量存储 AI大模型 降本增效

初识滴滴交易策略之一:交易市场

滴滴技术

算法 滴滴技术

2023世界人工智能大会,和鲸科技入选中国信通院《2023大模型和AIGC产业图谱》

ModelWhale

人工智能 数据科学 大模型 AIGC 世界人工智能大会

入选中国数据智能领域 IDC 创新者,柏睿数据创新实力再获肯定

新消费日报

软件测试丨Docker环境安装配置(Mac、Windows、Ubuntu)

测试人

Docker ubuntu 软件测试 Mac windows

和鲸数据科学专家平台正式成立,凝聚专家资源推进产业数字化升级

ModelWhale

人工智能 数据科学 专家平台 专家资源

晴数智慧张晴晴博士当选开放群岛开源社区「首席数据科学家」

极客天地

低代码在边缘计算工业软件中的应用

力软低代码开发平台

华为云命令行工具服务KooCLI助力一键管理云资源

云计算 软件开发 华为云

什么是HTML5?HTML5的含义、元素和好处

互联网工科生

html html5

图加速数据湖分析-GeaFlow和Hudi集成

TuGraphAnalytics

数据湖 图计算 Hudi 数据湖分析 GeaFlow

华为云Astro低代码平台关键能力技术浅析

云计算 软件开发 低代码 华为云

TDengine 3.0 性能如何?教你一键复现 IoT 场景 TSBS 测试结果

爱倒腾的程序员

云原生技术分享篇丨浅析Istio流量管理

inBuilder低代码平台

云原生

苹果APP安装包ipa如何安装在手机上

ios

基于Go语言的滴滴DevOps重塑之路

滴滴技术

DevOps 滴滴技术 #go

你需要知道的Symbols

不在线第一只蜗牛

前端 symbol

企业是如何做到持续规划的?

智达方通

全面预算管理 持续规划 年度计划流程

生成式AI的发展、应用及影响 | 社区征文

Dec

年中技术盘点

重塑未来的1课:组装式交付新引擎——智能化低代码平台

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

浅析华为云Astro的5大关键能力技术

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

极光笔记 | 解锁Web推送的潜力:提升网站收入

极光GPTBots-极光推送

网站 营销 消息推送 推送

新兴技术的影响与展望:生成式AI及更多思考|社区征文

小诚信驿站

年中技术盘点

Anthropic发布Claude 4系列模型和Claude Code_AI&大模型_Anthony Alford_InfoQ精选文章