Claude 开发商 Anthropic 推出 Claude Mythos 预览版模型,这是其迄今能力最强的前沿模型,在推理、编程及网络安全领域均有显著提升。Claude 采取了一项非同寻常的举措:并未向公众开放此模型,而是通过全新推出的“玻璃翼计划”(Project Glasswing)向技术企业联盟开放访问权限。
Claude Mythos 实现了 Anthropic 所描述的相较前代 Claude Opus 4.6 的“阶跃式提升”。在内部测试中,该模型自主发现多款主流操作系统与网页浏览器的全部零日漏洞,写出了可以利用这些漏洞进行攻击的代码。其中历史最久远的是一个已修复、存在于以安全性闻名的 OpenBSD 系统中长达 27 年的漏洞;它还发现了 FFmpeg H.264 编解码器内一个存在了 16 年的漏洞。
内部基准测试显示该模型取得了巨大的进步。在针对 Firefox 漏洞的数百次测试中,前代 Opus 4.6 仅两次成功编写出可利用的 JavaScript 攻击代码,而 Mythos 则成功了 181 次。在 OSS-Fuzz 测试集上,该模型针对十个已完成全面修复的不同目标实现了完整的控制流劫持。即便 Anthropic 的工程师没有专业的网络安全背景,让模型在夜间自主挖掘远程代码执行漏洞,次日便可得到完整可用的攻击程序。
Mythos 将不会公开发布,取而代之的是 Anthropic 启动了玻璃翼计划。该计划汇聚了 AWS、苹果、思科、CrowdStrike、谷歌、摩根大通、Linux 基金会、微软、英伟达以及 Palo Alto Networks 等机构。Anthropic 承诺提供价值 1 亿美元的模型使用额度,这些组织可借助 Mythos 识别并修复关键软件中存在的漏洞。
相关评论迅速涌现。在 Hacker News 上,已有网友对这一问题的波及范围提出了切实担忧:
数亿台嵌入式设备难以轻松升级,它们将永久运行存在漏洞的二进制程序。这一问题固然早已存在,但漏洞链式利用的便捷性将这些风险推向了新的高度。
X 平台上有一个帖子分享了相关基准测试结果,并配文称:Claude Mythos 在多项 AI 基准测试中大幅领先,其中在 SWE-bench Verified 上达到了 93.9%,而 Claude Opus 4.6 仅为 80.8%。
reddit 上 r/BetterOffline 板块的讨论则持更为怀疑的态度,认为仅靠基准测试并不足以衡量其真实能力:
我们唯一能验证的能力是它能在现有代码库中发现并利用存在已久的漏洞。我得说这确实是件大事,即便运行成本高昂。但我敢打赌,官方不公开它,除了“风险太大”之外,肯定还有别的原因。比如,它在其他领域的表现可能并不够好,而且运行成本极其昂贵。
这款模型或许在漏洞挖掘方面确实有用,但除此之外,我们完全不清楚它在其他场景下是否好用、是否划算。仅凭基准测试根本不足以全面衡量它的水平。
有人在 Reddit 的帖子中询问此次 Mythos 的相关热度究竟是炒作还是单纯的营销造势。有评论者提及此前的模型发布案例,比如 GPT-2,该模型当年也曾宣布推出但以安全为由暂缓发布。
Mythos 虽不会公开发布,但 Anthropic 表示,该模型的相关研究成果将为后续版本的 Claude 提供参考。其系统卡和风险报告均可查阅。
Anthropic 是一家人工智能安全公司,由前 OpenAI 研究高管创立。旗下的 Claude 系列模型以安全性与对齐性为核心,采用宪法 AI(Constitutional AI)安全对齐技术,让模型做到实用、无害且可信。Mythos 预览版采取限制性发布的方式明显背离了近年来 AI 行业“竞相发布”的竞争态势。
【声明:本文由 InfoQ 翻译,未经许可禁止转载。】
查看英文原文:https://www.infoq.com/news/2026/04/anthropic-claude-mythos/





