写点什么

Anthropic 公布 Claude 性能问题根源:三大基础设施漏洞

作者:Renato Losio

  • 2025-10-08
    北京
  • 本文字数:1154 字

    阅读完需:约 4 分钟

大小:565.04K时长:03:12
Anthropic 公布 Claude 性能问题根源:三大基础设施漏洞

Anthropic 近日发布故障报告,揭示近期 Claude 模型输出质量间歇性下降的根源在于三个独立的基础设施漏洞。Anthropic 表示目前已解决所有问题,且在改进内部流程以防类似事件发生。此事也引发社区对三大硬件平台服务运行难点的关注。

 

2025 年 8 月至 9 月初,Claude AI 用户陆续反馈模型响应质量下降或表现不稳定。最初看似普通的性能波动,实际并非由大流量或高需求引发,而是被追溯至三个分别影响底层基础设施、路由逻辑和编译流程的独立基础设施漏洞。团队解释称:

我们从未因流量、时段或负载而降低模型质量。用户反馈的问题完全源于基础设施漏洞(..……)每个漏洞在不同平台以不同频率引发不同问题,导致其线索错综复杂。

 

团队披露的三重故障包括:上下文窗口路由错误,导致 8 月 31 日的峰值时段影响了 16% 的 Sonnet 4 请求;由于 Claude API 的 TPU 服务器配置错误,在令牌生成过程中触发了故障,导致输出内容损坏,影响了 8 月 25 日至 28 日期间对 Opus 4.1 和 Opus 4 的请求,以及 8 月 25 日至 9 月 2 日期间对 Sonnet 4 的请求;最后,因为编译器中的一个潜在缺陷所导致的近似 top-k XLA:TPU 错误编译问题,影响了针对 Claude Haiku 3.5 的请求,持续时间近两周。Anthropic 补充道:

我们将 Claude 部署在 AWS Trainium、英伟达 GPU 和谷歌 TPU 三大硬件平台。各硬件平台特性迥异且需专门优化,尽管如此,我们的模型实现严格遵循统一等效的标准。

 


来源:Anthropic 博客 blog

 

Anthropic 的可靠性负责人 Todd Underwood 在领英上回应了这些问题

这个夏天我们在可靠性方面表现不佳。早在这些问题出现之前,七八月就已持续出现容量与可靠性故障(..……)我对此深表歉意,团队正全力提供兼具高质量与高可用的最佳模型。

 

OpenAI 技术团队成员 Clive Chan 评论

机器学习基础设施运维难度极高,向参与问题定位与报告撰写的同仁致敬。

 

Anthropic 致力于让所有硬件平台都对用户透明化,确保无论什么平台的请求都能获得同等质量响应,其硬件复杂度意味着每次基础设施变更都需全平台验证。Google DeepMind 高级 AI 开发者关系工程师 Philipp Schmid 指出

大规模模型服务本已困难,在三大硬件平台(AWS Trainium、英伟达 GPU、谷歌 TPU)上维持严格等效更是难上加难。令人质疑硬件灵活性是否值得以开发速度和用户体验为代价。

 

Hacker News 用户 Mike Hearn 分析:

最值得注意的是单元测试的明显缺失。针对 XLA 编译漏洞的测试仅打印了结果,这更像是一个复现案例,而不是那种由测试框架执行、并且会跟踪覆盖率的单元测试。而后续的改进措施,也仅仅是更激进地依赖评估手段。

 

这家 AI 公司承诺将推行更灵敏的评估机制,在更多环节加入质量检验,并开发新工具在保护隐私前提下高效分析社区反馈。


原文链接:

https://www.infoq.com/news/2025/10/anthropic-infrastructure-bugs/

2025-10-08 14:266673

评论

发布
暂无评论

fcpx视频剪辑:Final Cut Pro for Mac 中文版软件下载

你的猪会飞吗

mac软件下载 Final Cut Pro下载 Final Cut Pro中文版 Final Cut Pro破解版 mac破解软件下载

关联比赛:  Apache Flink极客挑战赛——Flink TPC-DS性能优化

阿里云天池

与客户建立联系,成为企业战略决策的引领者

智达方通

全面预算管理 财务管理 客户关系

NocoBase 与百事通:为法律行业带来全新变革

NocoBase

低代码 无代码 客户案例

非常强大的视频编码输出渲染插件 AfterCodecs

Rose

淘宝店铺所有商品数据接口怎么获取

tbapi

淘宝API接口 淘宝店铺所有商品数据接口

GPU虚拟化技术简介:实现高性能图形处理的灵活部署

天翼云开发者社区

云计算 gpu 虚拟化技术

算网资源调度关键技术

天翼云开发者社区

云计算 云服务

React Native在移动端落地实践

智在碧得

跨端开发 移动端跨端 跨端技术 Neact Native 智在碧得

小白学深度学习:知识蒸馏研究综述

阿里云天池

人工智能 | MetaLlama大模型

测试人

人工智能 软件测试

DR 5中文版(PS一键磨皮插件(Delicious Retouch)

Rose

智能体进化发展了一年,现在的RPA Agent迭代到什么程度了?

王吉伟频道

RPA 智能体 大语言模型 AI Agent RPA Agent

CRISP-DM的应用与理解

天翼云开发者社区

数据挖掘 CRISP-DM

解析淘宝商品详情API返回值中的特殊属性

技术冰糖葫芦

api 网关 API Explorer API 策略 pinduoduo API

平台工程:它是什么?谁来做?怎么做?

北京好雨科技有限公司

rainbond 平台工程 企业号9月PK榜 kubernetes 云

PS插件:卡通人物漫画风格一键生成插件Cartoon Maker - Clone - Photoshop Plugin 汉化版

Rose

TikTok直播限流与网络有关系吗?怎么解决?

Ogcloud

海外直播专线 海外直播 tiktok直播专线 海外直播网络 tiktok直播网络

《有恃无恐》

充实的orzi

#小说 #艺术来源于现实

眼睛糖果滤镜PS插件 Alien Skin Eye Candy 7 附汉化补丁

Rose

【永久激活版】Red Giant Trapcode Suite(红巨人粒子特效套装插件)

Rose

MetaLlama大模型

霍格沃兹测试开发学社

海外直播带货,怎样确保网络稳定流畅

Ogcloud

海外直播专线 海外直播 直播专线 海外直播网络 tk直播专线

解析淘宝商品详情API返回值中的关键属性

代码忍者

观测云核心技术揭秘:基于时间的半结构化数据模型

观测云

数据结构

中文汉化版AE插件:Deep Glow发光特效 for mac

Rose

A级模拟机架 Arturia Pre TridA mac版

Rose

无需推翻既有的建设,这个可观测性产品思路清奇

巴辉特

监控 可观测性 Prometheus 故障定位

Anthropic 公布 Claude 性能问题根源:三大基础设施漏洞_AI&大模型_InfoQ精选文章