智能体刷屏的背后,是 AI 应用拐点的来临?AICon 北京站议程重磅公布,50+ 硬核分享不容错过 了解详情
写点什么

Anthropic 发布 Claude 4 系列模型和 Claude Code

  • 2025-06-05
    北京
  • 本文字数:1215 字

    阅读完需:约 4 分钟

大小:593.52K时长:03:22
Anthropic发布Claude 4系列模型和Claude Code

Anthropic发布了Claude Opus 4和Sonnet 4,这是其 Claude 系列大语言模型(LLM)的最新版本。这两个模型都支持扩展思考、工具使用和记忆改进。在编码基准测试中,Claude 4 Opus 的表现超过了其他 LLM。

 

在“用Claude编码”活动中,Anthropic 宣布了这一消息。Claude 4 模型是“混合”模型:它们可以快速回答问题,也可以进行扩展思考。在扩展思考模式下,这些模型可以使用工具(如 Web 搜索),同时运行多个工具,并使用本地文件进行记忆。在SWE-bench编码基准测试中,Claude Opus 4 得分为 72.5%,在Terminal-bench编码基准测试中,得分为 43.2%,超过了所有其他编码模型。此外,Anthropic 还宣布正式发布Claude Code,这是 Anthropic 推出的编码代理,提供了 Beta 版的扩展,用于集成JetBrainsVS Code。根据 Anthropic 的说法:

 

这些模型是朝着虚拟协作者迈出的一大步——保持完整的上下文,专注于更长期的项目,并推动变革性的影响。它们都经过了广泛的测试和评估,为的是能够最小化风险,并提供最大的安全性,包括实施更高 AI 安全级别的措施,如 ASL-3。我们非常期待看到你们对它们的创造性应用。

 

与之前的版本相比,Claude 4 还包括其他几项改进。Anthropic 声称,Claude 4 将使用“shortcuts”来完成代理任务的可能性降低了 65%。它还使用本地文件存储数据,“在记忆能力上大大超过了以前所有的模型”。在思考模式下,思维链输出总结只需“大约 5%的时间”,减少了显示所需的空间。


图片来源:Anthropic的Claude 4发布公告

 

在 Hacker News 的讨论中,用户想知道新模型的改进是否足以“证明全部版本都增加的合理性”。一位用户回复说:

 

我是一名开发人员,我已经尝试使用 AI 进行氛围编码(vibe code)两年了。这是第一次,我能够在不需要每一步都手动干预的情况下通过氛围编码完成一个应用。不是说它完美,也不是说我会在未经人类审查的情况下信任它,但我确实在不到 24 小时内通过氛围编码实现了一个完整的生产就绪的 iOS/Android/Web 应用,可以接受 24 小时内付款。除了告诉它我接下来想做什么外,几乎不需要其他任何手动干预。

 

开源开发者 Simon Willison 对发布会做了实时报道。他还深入研究Claude 4系统卡片,上面记录了 Anthropic 安全测试的几个场景和结果。

 

Anthropic 的系统卡片总是值得一看。对于新发布的 Opus 4 和 Sonnet 4,它们的系统卡片有一些特别惹眼的说明。该系统卡片有 120 页——几乎是 Claude 3.7 Sonnet 系统卡片长度的三倍!如果你正在寻找一些令人愉快的硬科幻小说……这份文件绝对能满足你。

 

根据 Anthropic 的测试,在某些情况下,他们的模型会采取“极端行动”,虽然这些行动“罕见且难以引发,但仍然比早期模型更常见。”作为 Responsible Scaling Policy(RSP)的一部分,随着 Claude 4 的发布,Anthropic 决定激活他们的部署和安全标准AI安全级别3(ASL-3),其中包括加强内部安全,防止模型权重盗窃。


声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:https://www.infoq.com/news/2025/06/anthropic-claude-4/

2025-06-05 12:001

评论

发布
暂无评论

疑似45亿条递信息泄露,“三类主体”如何应对?

极盾科技

数据安全

假如面试官问你Babel的原理该怎么回答

loveX001

JavaScript

基于飞桨PaddleClas完成半导体晶圆图谱缺陷种类识别

飞桨PaddlePaddle

paddle 开源 飞桨

LR性能测试常见问题及处理方法(一)

性能测试 问题排查 LoadRunner

令人头秃的js隐式转换面试题,你能做对吗

loveX001

JavaScript

SQL工具性能实测:居然比Navicat还快,数百万行数据导出仅51秒

雨果

sql 数据库管理工具 Web SQL sql studio

有爱相伴,宠爱有家,皮皮App发起关爱流浪动物主题公益活动

联营汇聚

BeyondCampus-护航高校网络安全

权说安全

网络安全 零信任

Java 集合中的排序算法浅析

京东科技开发者

jdk 后端 Java、 排序算法 企业号 2 月 PK 榜

构建云边端一体的分布式云架构,软硬结合驱动边缘计算创新场景

百度开发者中心

云原生 边缘计算 #百度智能云#

LR性能测试常见问题及处理方法(二)

性能测试 问题排查 LoadRunner

面试官:你是怎样进行react组件代码复用的

beifeng1996

React

目前兰州市等保测评机构有几家?有新增的吗?

行云管家

等保 等级保护 等保测评 兰州

谈谈Linux内核的噪声

统信软件

Linux 内核

ChatGPT风口下的技术“狂飙”,天翼云荣登ZeroCLUE榜首

天翼云开发者社区

最初设计时就会避开钽电容,这是为什么呢?三大理由告诉你原因

元器件秋姐

元器件 电容 钽电容

腾讯前端必会面试题(必备)

loveX001

JavaScript

【FAQ】集成分析服务的常见问题及解决方案

HarmonyOS SDK

HMS Core

Led透明显示屏的发展超乎你想象

Dylan

LED 显示器 LED显示屏

unittest中使用ddt后生成的测试报告名称如何修改?(如test_api_0修改成test_api_0_titile)

单元测试 自动化测试 unittest 参数化 ddt

面试了20+前端大厂,整理出的面试题

loveX001

JavaScript

面试官:说说React-SSR的原理

beifeng1996

React

Unittest接口测试生成报告和日志方法

日志 单元测试 自动化测试 unittest 测试报告

万亿级对象存储的元数据系统架构设计和实践

百度开发者中心

对象存储 文件存储 百度沧海

Golang 编程“珠玑”

MatrixOrigin

golang 分布式数据库 编程语言 MatrixOrigin MatrixOne

瓴羊Quick BI即席分析工具:创设数据分析捷径

巷子

瓴羊Quick BI为企业决策者提供可视化分析服务

小偏执o

关于微服务架构的思考

HummerCloud

微服务 云原生

百度前端必会react面试题总结

beifeng1996

React

堡垒机行业标杆产品是哪家呢?有哪些功能?

行云管家

网络安全 信息安全 等保 堡垒机

Anthropic发布Claude 4系列模型和Claude Code_AI&大模型_Anthony Alford_InfoQ精选文章