写点什么

Anthropic 发布 Claude 4 系列模型和 Claude Code

  • 2025-06-05
    北京
  • 本文字数:1215 字

    阅读完需:约 4 分钟

大小:593.52K时长:03:22
Anthropic发布Claude 4系列模型和Claude Code

Anthropic发布了Claude Opus 4和Sonnet 4,这是其 Claude 系列大语言模型(LLM)的最新版本。这两个模型都支持扩展思考、工具使用和记忆改进。在编码基准测试中,Claude 4 Opus 的表现超过了其他 LLM。

 

在“用Claude编码”活动中,Anthropic 宣布了这一消息。Claude 4 模型是“混合”模型:它们可以快速回答问题,也可以进行扩展思考。在扩展思考模式下,这些模型可以使用工具(如 Web 搜索),同时运行多个工具,并使用本地文件进行记忆。在SWE-bench编码基准测试中,Claude Opus 4 得分为 72.5%,在Terminal-bench编码基准测试中,得分为 43.2%,超过了所有其他编码模型。此外,Anthropic 还宣布正式发布Claude Code,这是 Anthropic 推出的编码代理,提供了 Beta 版的扩展,用于集成JetBrainsVS Code。根据 Anthropic 的说法:

 

这些模型是朝着虚拟协作者迈出的一大步——保持完整的上下文,专注于更长期的项目,并推动变革性的影响。它们都经过了广泛的测试和评估,为的是能够最小化风险,并提供最大的安全性,包括实施更高 AI 安全级别的措施,如 ASL-3。我们非常期待看到你们对它们的创造性应用。

 

与之前的版本相比,Claude 4 还包括其他几项改进。Anthropic 声称,Claude 4 将使用“shortcuts”来完成代理任务的可能性降低了 65%。它还使用本地文件存储数据,“在记忆能力上大大超过了以前所有的模型”。在思考模式下,思维链输出总结只需“大约 5%的时间”,减少了显示所需的空间。


图片来源:Anthropic的Claude 4发布公告

 

在 Hacker News 的讨论中,用户想知道新模型的改进是否足以“证明全部版本都增加的合理性”。一位用户回复说:

 

我是一名开发人员,我已经尝试使用 AI 进行氛围编码(vibe code)两年了。这是第一次,我能够在不需要每一步都手动干预的情况下通过氛围编码完成一个应用。不是说它完美,也不是说我会在未经人类审查的情况下信任它,但我确实在不到 24 小时内通过氛围编码实现了一个完整的生产就绪的 iOS/Android/Web 应用,可以接受 24 小时内付款。除了告诉它我接下来想做什么外,几乎不需要其他任何手动干预。

 

开源开发者 Simon Willison 对发布会做了实时报道。他还深入研究Claude 4系统卡片,上面记录了 Anthropic 安全测试的几个场景和结果。

 

Anthropic 的系统卡片总是值得一看。对于新发布的 Opus 4 和 Sonnet 4,它们的系统卡片有一些特别惹眼的说明。该系统卡片有 120 页——几乎是 Claude 3.7 Sonnet 系统卡片长度的三倍!如果你正在寻找一些令人愉快的硬科幻小说……这份文件绝对能满足你。

 

根据 Anthropic 的测试,在某些情况下,他们的模型会采取“极端行动”,虽然这些行动“罕见且难以引发,但仍然比早期模型更常见。”作为 Responsible Scaling Policy(RSP)的一部分,随着 Claude 4 的发布,Anthropic 决定激活他们的部署和安全标准AI安全级别3(ASL-3),其中包括加强内部安全,防止模型权重盗窃。


声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:https://www.infoq.com/news/2025/06/anthropic-claude-4/

2025-06-05 12:007060

评论

发布
暂无评论

使用 Jenkins + Docker 构建与部署 Serverless 应用

donghui

Docker Serverless jenkins

公安一体化警务,合成指挥作战平台搭建

t13823115967

智慧公安

架构师必会知识大合集:五位架构师手写于西溪园区的技术使用心得

Java架构之路

Java 程序员 架构 面试 编程语言

MySQL慢查询(上):为啥会这么慢?

架构精进之路

MySQL MySQL优化 MySQL使用 28天写作

2020,云计算这一年

脑极体

邹平打造区块链生态环境监管体系

CECBC

区块链 生态环境

Junit4 Rules 使用

hungxy

Java JUnit

[架构师训练营第 1 期] 大作业(二):架构师技术知识导图

猫切切切切切

关于拼多多价值的思考

.

28天写作

极客大学架构师训练营大作业

Meow

【架构师训练营】大作业二:架构知识总结

MindController

总结 架构师 架构师训练营第 1 期

聚焦产业链供应链 拓展数字经济新空间

CECBC

数字经济 企业融资

感谢 Gridea,让我有动力写作

和牛

程序员

喜提offer!支付宝Java研发岗四面,从基础到项目在到架构与业务

Java架构之路

Java 程序员 架构 面试 编程语言

联通链:5G时代的信任链

CECBC

中国联通

手把手教你如何巧用Github的Action功能

flutter android 持续集成

架构师训练营第七周课后作业

万有引力

【架构师训练营】大作业一:快递架构设计

MindController

架构设计 架构师

极客大学架构师训练营大作业

Meow

智能电车小白从入门到了解(Day1/28)

mtfelix

自动驾驶 28天写作 智能电车 电动汽车

Serverless 在 SaaS 领域的最佳实践

阿里巴巴云原生

云计算 阿里云 开发者 云原生 消息中间件

Linux Socket 编程

赖猫

c++ Linux linux编程 linux运维 linux开发

三无小区整改,平安小区智能化管理平台搭建

t13823115967

智慧社区管理平台开发

精选算法面试-链表(反转)

李孟聊AI

算法 链表 28天写作

程序员如何让自己更快的废掉?

冰河

程序员 程序人生 规划 职业生涯

用户体验提升计划:前端性能检测清单2021

知识乞丐

大前端 28天写作

爱了! Alibaba技术官甩出的“阿里内部Java成长笔记”,差距对比真的是不止一点点

Java架构之路

Java 程序员 架构 面试 编程语言

【得物技术】App需要什么样移动网关

得物技术

App 后端 网关 得物技术 移动端

趣店容器进化史

ZoaChou

容器 k8s

架构师第七周总结

Geek_xq

[架构师训练营第 1 期] 大作业(一):通达系统概要设计图

猫切切切切切

Anthropic发布Claude 4系列模型和Claude Code_AI&大模型_Anthony Alford_InfoQ精选文章