大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

Anthropic 公布 Claude 性能问题根源:三大基础设施漏洞

作者:Renato Losio

  • 2025-10-08
    北京
  • 本文字数:1154 字

    阅读完需:约 4 分钟

大小:565.04K时长:03:12
Anthropic 公布 Claude 性能问题根源:三大基础设施漏洞

Anthropic 近日发布故障报告,揭示近期 Claude 模型输出质量间歇性下降的根源在于三个独立的基础设施漏洞。Anthropic 表示目前已解决所有问题,且在改进内部流程以防类似事件发生。此事也引发社区对三大硬件平台服务运行难点的关注。

 

2025 年 8 月至 9 月初,Claude AI 用户陆续反馈模型响应质量下降或表现不稳定。最初看似普通的性能波动,实际并非由大流量或高需求引发,而是被追溯至三个分别影响底层基础设施、路由逻辑和编译流程的独立基础设施漏洞。团队解释称:

我们从未因流量、时段或负载而降低模型质量。用户反馈的问题完全源于基础设施漏洞(..……)每个漏洞在不同平台以不同频率引发不同问题,导致其线索错综复杂。

 

团队披露的三重故障包括:上下文窗口路由错误,导致 8 月 31 日的峰值时段影响了 16% 的 Sonnet 4 请求;由于 Claude API 的 TPU 服务器配置错误,在令牌生成过程中触发了故障,导致输出内容损坏,影响了 8 月 25 日至 28 日期间对 Opus 4.1 和 Opus 4 的请求,以及 8 月 25 日至 9 月 2 日期间对 Sonnet 4 的请求;最后,因为编译器中的一个潜在缺陷所导致的近似 top-k XLA:TPU 错误编译问题,影响了针对 Claude Haiku 3.5 的请求,持续时间近两周。Anthropic 补充道:

我们将 Claude 部署在 AWS Trainium、英伟达 GPU 和谷歌 TPU 三大硬件平台。各硬件平台特性迥异且需专门优化,尽管如此,我们的模型实现严格遵循统一等效的标准。

 


来源:Anthropic 博客 blog

 

Anthropic 的可靠性负责人 Todd Underwood 在领英上回应了这些问题

这个夏天我们在可靠性方面表现不佳。早在这些问题出现之前,七八月就已持续出现容量与可靠性故障(..……)我对此深表歉意,团队正全力提供兼具高质量与高可用的最佳模型。

 

OpenAI 技术团队成员 Clive Chan 评论

机器学习基础设施运维难度极高,向参与问题定位与报告撰写的同仁致敬。

 

Anthropic 致力于让所有硬件平台都对用户透明化,确保无论什么平台的请求都能获得同等质量响应,其硬件复杂度意味着每次基础设施变更都需全平台验证。Google DeepMind 高级 AI 开发者关系工程师 Philipp Schmid 指出

大规模模型服务本已困难,在三大硬件平台(AWS Trainium、英伟达 GPU、谷歌 TPU)上维持严格等效更是难上加难。令人质疑硬件灵活性是否值得以开发速度和用户体验为代价。

 

Hacker News 用户 Mike Hearn 分析:

最值得注意的是单元测试的明显缺失。针对 XLA 编译漏洞的测试仅打印了结果,这更像是一个复现案例,而不是那种由测试框架执行、并且会跟踪覆盖率的单元测试。而后续的改进措施,也仅仅是更激进地依赖评估手段。

 

这家 AI 公司承诺将推行更灵敏的评估机制,在更多环节加入质量检验,并开发新工具在保护隐私前提下高效分析社区反馈。


原文链接:

https://www.infoq.com/news/2025/10/anthropic-infrastructure-bugs/

2025-10-08 14:266770

评论

发布
暂无评论

30道经典的Java基础面试题集锦

爱好编程进阶

程序员 后端开发

7-1 银行家算法--安全性检查 (20 分)(思路+详解+知识分析)宝 你今天 AC了吗

爱好编程进阶

Java 程序员 后端开发

centos7

爱好编程进阶

Java 程序员 后端开发

超级原始人系列盲盒即将上线,PlatoFarm赋能超多权益

BlockChain先知

在线JSON转换成Excel文件工具

入门小站

工具

2021年学习Java还有意义吗?

爱好编程进阶

Java 程序员 后端开发

90后表示已经躺平,我就静静的看着你们00后卷

爱好编程进阶

Java 程序员 后端开发

Day146

爱好编程进阶

Java 程序员 后端开发

28天面试突击:JVM+Redis

爱好编程进阶

程序员 后端开发

LeetCode 24:交换链表

武师叔

5月月更

从火车票验票来说Flutter的网络请求会话管理

岛上码农

flutter 安卓开发 跨平台开发 ios 开发 5月月更

三、应用高可用之数据设计

穿过生命散发芬芳

5月月更 高可用设计

Ajax 使用ajax加上get和post方法,通过后台加载数据,并在网页上进行显示

爱好编程进阶

Java 程序员 后端开发

linux线上CPU100%排查

入门小站

Linux

2021-3-29 【PTA】

爱好编程进阶

Java 程序员 后端开发

DirectByteBuffer内存释放

爱好编程进阶

Java 程序员 后端开发

dubbo + zookeeper + spring 分布式系统

爱好编程进阶

Java 程序员 后端开发

ElasticSearch Client详解

爱好编程进阶

Java 程序员 后端开发

架构实战营模块二作业

哈啰–J

Docker从入门到干事,看这一篇就够了

爱好编程进阶

Java 程序员 后端开发

eclispe git 安装使用

爱好编程进阶

Java 程序员 后端开发

30分钟掌握沧湖一体化:flink+hudi

爱好编程进阶

程序员 后端开发

3年CRUD程序员3个月啃完这份524页PDF成功涨9k!

爱好编程进阶

Java 程序员 后端开发

TypeScript 变量声明

Emperor_LawD

typescript 基础 5月月更

微博系统中“微博评论”的高性能高可用计算架构

哈喽

「架构实战营」

Docker Swarm从部署到基本操作

爱好编程进阶

Java 程序员 后端开发

2021-3-20 【推箱子】

爱好编程进阶

Java 程序员 后端开发

2021秋招运维工程师岗位常考的知识点

爱好编程进阶

Java 程序员 后端开发

CGBTN2110-DAY02总结复习

爱好编程进阶

Java 程序员 后端开发

docker 基本知识

爱好编程进阶

程序员 后端开发

在线Excel转Text工具

入门小站

工具

Anthropic 公布 Claude 性能问题根源:三大基础设施漏洞_AI&大模型_InfoQ精选文章