写点什么

Anthropic 发布 Claude 4 系列模型和 Claude Code

  • 2025-06-05
    北京
  • 本文字数:1215 字

    阅读完需:约 4 分钟

大小:593.52K时长:03:22
Anthropic发布Claude 4系列模型和Claude Code

Anthropic发布了Claude Opus 4和Sonnet 4,这是其 Claude 系列大语言模型(LLM)的最新版本。这两个模型都支持扩展思考、工具使用和记忆改进。在编码基准测试中,Claude 4 Opus 的表现超过了其他 LLM。

 

在“用Claude编码”活动中,Anthropic 宣布了这一消息。Claude 4 模型是“混合”模型:它们可以快速回答问题,也可以进行扩展思考。在扩展思考模式下,这些模型可以使用工具(如 Web 搜索),同时运行多个工具,并使用本地文件进行记忆。在SWE-bench编码基准测试中,Claude Opus 4 得分为 72.5%,在Terminal-bench编码基准测试中,得分为 43.2%,超过了所有其他编码模型。此外,Anthropic 还宣布正式发布Claude Code,这是 Anthropic 推出的编码代理,提供了 Beta 版的扩展,用于集成JetBrainsVS Code。根据 Anthropic 的说法:

 

这些模型是朝着虚拟协作者迈出的一大步——保持完整的上下文,专注于更长期的项目,并推动变革性的影响。它们都经过了广泛的测试和评估,为的是能够最小化风险,并提供最大的安全性,包括实施更高 AI 安全级别的措施,如 ASL-3。我们非常期待看到你们对它们的创造性应用。

 

与之前的版本相比,Claude 4 还包括其他几项改进。Anthropic 声称,Claude 4 将使用“shortcuts”来完成代理任务的可能性降低了 65%。它还使用本地文件存储数据,“在记忆能力上大大超过了以前所有的模型”。在思考模式下,思维链输出总结只需“大约 5%的时间”,减少了显示所需的空间。


图片来源:Anthropic的Claude 4发布公告

 

在 Hacker News 的讨论中,用户想知道新模型的改进是否足以“证明全部版本都增加的合理性”。一位用户回复说:

 

我是一名开发人员,我已经尝试使用 AI 进行氛围编码(vibe code)两年了。这是第一次,我能够在不需要每一步都手动干预的情况下通过氛围编码完成一个应用。不是说它完美,也不是说我会在未经人类审查的情况下信任它,但我确实在不到 24 小时内通过氛围编码实现了一个完整的生产就绪的 iOS/Android/Web 应用,可以接受 24 小时内付款。除了告诉它我接下来想做什么外,几乎不需要其他任何手动干预。

 

开源开发者 Simon Willison 对发布会做了实时报道。他还深入研究Claude 4系统卡片,上面记录了 Anthropic 安全测试的几个场景和结果。

 

Anthropic 的系统卡片总是值得一看。对于新发布的 Opus 4 和 Sonnet 4,它们的系统卡片有一些特别惹眼的说明。该系统卡片有 120 页——几乎是 Claude 3.7 Sonnet 系统卡片长度的三倍!如果你正在寻找一些令人愉快的硬科幻小说……这份文件绝对能满足你。

 

根据 Anthropic 的测试,在某些情况下,他们的模型会采取“极端行动”,虽然这些行动“罕见且难以引发,但仍然比早期模型更常见。”作为 Responsible Scaling Policy(RSP)的一部分,随着 Claude 4 的发布,Anthropic 决定激活他们的部署和安全标准AI安全级别3(ASL-3),其中包括加强内部安全,防止模型权重盗窃。


声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:https://www.infoq.com/news/2025/06/anthropic-claude-4/

2025-06-05 12:006547

评论

发布
暂无评论

活动预约!华为云企业快成长大数据技术创新论坛成都站6月16日举行

说山水

架构训练营模块3作业——外包学生管理系统的架构文档

Geek_3d7c4d

#架构训练营

膜拜!Alibaba最新发布SprinBoot:进阶原理实战与面试题分析指南

互联网架构师小马

Java spring 微服务 Spring Boot 框架

TG Pro for mac:Mac温度和风扇速度如何控制?

背包客

深度学习 macos Mac软件 MacBook Pro TG Pro for mac

众多国央企专家齐聚一堂,探索财务共享未来模式

用友BIP

财务共享

openEuler 开源汇智赢未来|2023开放原子全球开源峰会OpenAtom openEuler 论坛成功召开

开放原子开源基金会

开源 openEuler 开放原子全球开源峰会 开放原子

银行数字化转型研究与敏捷转型探索

L3C老司机

数字化转型 敏捷转型 敏捷组织 银行转型 敏捷探索

牛逼!Windows竟然也能运行QEMU虚拟机!

吴脑的键客

qemu windows10 windows 11

积聚产业发展新动能|2023开放原子全球开源峰会OpenAtom OpenHarmony分论坛成功举办

开放原子开源基金会

开源 OpenHarmony 开放原子全球开源峰会 开放原子

大文件上传功能在标签服务的简单应用和代码实现

袋鼠云数栈

大数据 标签体系 企业号 6 月 PK 榜

Battery Indicator for Mac:Mac笔记本电脑电池电量剩余百分比显示工具

背包客

macos Mac软件 MacBook Pro Battery Mac电量显示软件

透明LED显示屏报价方案

Dylan

方案 屏幕亮度 报价 像素 LED显示屏

爆赞!GitHub上首本IntelliJ IDEA操作手册,标星果然百万名不虚传

互联网架构师小马

Java IDEA

【游戏行业部】重回游戏公平,向游戏打金工作室宣战!

网易智企

游戏 反外挂 游戏安全

南宁建宁水务集团财务共享、全面预算项目正式启动

用友BIP

知乎最具争议的Java面试成神笔记,GitHub已下载量已过百万

互联网架构师小马

Java java面试 Java八股文 Java面试题 Java面试八股文

【Netty】「萌新入门」(二)剖析 EventLoop

sidiot

Java 后端 Netty 6 月 优质更文活动

弥合风险缺口 筑牢共享安全|2023开放原子全球开源峰会开源安全技术与实践分论坛成功举办

开放原子开源基金会

开源 开放原子全球开源峰会 开放原子 开源安全技术与实践

MaxCompute中如何处理异常字符

阿里云大数据AI技术

大数据 数据处理 企业号 6 月 PK 榜

GitHub收获70K+Star!阿里巴巴总结的「百亿级别并发设计手册」太香了

互联网架构师小马

Java 系统设计 高并发

HummerRisk 开发手册:Restful Api 使用

HummerCloud

开源 云原生 云安全

浅析数智化转型深层次的挑战

用友BIP

数智平台

OpenAI发布ChatGPT函数调用和API更新

楚少AI

openai GPT-4 ChatGPT4 chatgpt api gpt-3.5-turbo-16k

如何用Taro打造敏捷的移动App架构

没有用户名丶

OpenInfra基金会在亚洲、欧洲正式设立运营中心

说山水

火山引擎DataLeap:一个易用、高效的数据目录,是如何搭建的?

字节跳动数据平台

大数据 数据治理 数据目录 数据研发

内网IM即时通讯软件WorkPlus,快速连接工作的沟通利器

BeeWorks

公有云数据库新趋势,企业降本增效正当时

MatrixOrigin

数据库 分布式 云原生 超融合 HTAP

如何成功实施一个数据治理项目?实施步骤有哪些?

袋鼠云数栈

数字化转型 数据治理 企业号 6 月 PK 榜

Anthropic发布Claude 4系列模型和Claude Code_AI&大模型_Anthony Alford_InfoQ精选文章