Atlassian使用边车和高容错设计将可用性提升到6个9以上_软件工程_Eran Stiller_InfoQ精选文章

AI实践哪家强？来 AICon，解锁技术前沿，探寻产业新机！了解详情 



 写点什么

登录/注册

Atlassian使用边车和高容错设计将可用性提升到6个9以上

Atlassian 工程播客最近分享了其租户上下文服务（Tenant Context Service，TCS）如何让可用性超过了99.9999%。Atlassian 通过实现高度自治的客户端边车实现了这种高可用性，能够主动保护自己免受 AWS 区域故障的影响。边车通过并发地查询多个 TCS 服务并确保请求在内部是完全隔离的来实现这一目标。

TCS 是 Atlassian 的一项关键基础设施服务，在大多数 Atlassian 云产品的每个 Web 请求路径中都会被多次调用。它提供了“租户元数据”的高可用性、读优化的视图。2022 年 7 月，TCS 每天处理 320 亿次请求，峰值请求率为每秒 586308 次。总体可用性超过了 99.999%，最高吞吐量的客户端在高峰期的平均响应时间约为 11μs。

为了实现这些指标，Atlassian 的工程师采用CQRS模式设计了 TCS。当“租户元数据”目录发生变化时，TCS 将“租户元数据”的转换视图导入AWS DynamoDB。此外，TCS 广泛使用 L1 内存缓存，以及基于 SNS 的缓存失效广播系统。与客户端应用程序一起部署的边车作为 Web 服务器缓存的远程扩展，并通过与多个 TCS 部署通信来提高可用性。下图描绘了 TCS 的架构。

来源：https://www.atlassian.com/engineering/atlassian-critical-services-above-six-nines-of-availability

由于边车的缓存命中率通常超过 99.5%，无法命中的情况相对较少。因此，TCS 边车会在缓存未命中时抢先发送重复的请求——一个发送给选定的“主”父 TCS，一个发送给随机的辅助 TCS。这种方法的一个好处是，边车将无缝地处理父节点或网络故障。它不需要检测失败的请求，因为“后备”请求已经在进行中。

Atlassian 的主要开发者 David Connard 解释了这种方法的细节。

虽然这种逻辑可以很好地应对快速失败的场景，但还需要为缓慢失败的场景做好计划，这通常是系统要处理的最成问题的故障模式，此时关键要进行一些适当的隔离。对于我们来说，适当的隔离意味着任何单亲 TCS、AWS 服务或整个 AWS 区域的故障都不能影响我们的边车在不同区域运行的能力。

为了实现这种高水平的隔离，Atlassian 工程师使用独立的任务队列和线程池来处理请求，对于每个父 TCS 来说是完全隔离的（甚至连 HTTP 连接池实例都是如此）。他们通过减少请求负载（有选择地丢弃请求）和动态调整线程池（限制延迟较低的 TCS 部署的线程池的大小）来防止因任务排队并消耗额外的资源导致的慢故障场景。

在服务器端，失效广播系统进行跨区域调用，发布失效消息。由于跨区域延迟明显较高，可能会影响失效广播。Connard 解释了工程师如何保护 TCS 免受这个问题的影响。

不能让跨区域停机（例如某个目标区域中的AWS SNS 故障）延迟或阻止从该 TCS 服务器向其他区域发送失效广播。为了实现这种隔离，TCS 服务器失效广播系统将所有失效广播数据和处理线程复制到单独的特定于区域的队列中。然后，隔离的工作线程仅从其中一个队列发布到每个目标区域。向一个目标区域发送广播的速度减慢或完全失败只会减缓该区域的处理速度，不会影响向其他目标区域发布消息。

除了提高系统的可用性外，Atlassian 的工程师还采用了多种方法来伸缩系统，包括使用SNS扇出模式、包含边车网络监控功能的自定义请求负载平衡策略，以及采用 gRPC 作为 HTTP API 的低延迟替代方案。

原文链接：

Atlassian Exceeds 99.9999% of Availability Using Sidecars and Highly Fault-Tolerant Design

评论 1 条评论

发布

对于专有词汇，直接写 sidecar 可能会更好。"边车"有一些懵

2022-10-20 09:49 · 广东

 0 回复

没有更多了

毕业回馈！Apache Doris 社区所有贡献者来领礼品啦！

数据库数据湖开源项目 apache doris 社区活动

东方甄选双语直播火爆出圈，新东方转型初见端倪

2022华为全球校园AI算法精英大赛即将升级启航，等你来战，开拓未来边界

Spring那点事

多任务视频推荐方案，百度工程师实战经验分享

百度开发者中心

我的远程办公经验 | 社区征文

云上弹性高性能计算，支持生命科学产业高速发展、降本增效

阿里云弹性计算

HPC 高性能计算生命科学药物设计

钱大妈基于 Flink 的实时风控实践

大数据 flink 编程流计算实时计算

自适应批作业调度器：为 Flink 批作业自动推导并行度

大数据 flink 编程流计算实时计算

封装业务流程，解决复杂重复的审批流程配置

LP流动性质押挖矿分红dapp系统开发合约定制

开发微hkkf5566

覆盖接入2w+交通监测设备，EMQ为深圳市打造交通全要素数字化新引擎

EMQ映云科技

物联网 IoT 智慧交通实践案例 6月月更

如何把企业内部碎片信息系统化？

揭开SSL的神秘面纱，了解如何用SSL保护数据

郑州埃文科技

数据安全 SSL证书 IP溯源

NFT数字藏品APP系统开发

开发微hkkf5566

重新认识WorkPlus，不止IM即时通讯，是企业移动应用管理专家

2021年4季度全国网络零售发展指数同比增长0.6%

云原生多云管理利器 -- cluster-api 之 ControlPlane

Daocloud 道客

Kubernetes 云原生多云管理 cluster-api ControlPlane

父亲节特辑丨童年经典蓝精灵之百变蓝爸爸数字藏品，限量发售！

百度开发者中心

解密抖音春节红包背后的技术设计与实践

架构设计短视频社交产品

如何保证数据库和缓存双写一致性？

C++后台开发

数据库 redis 缓存中间件后端开发

轻松实现微信滑动返回页面效果 | 社区征文

android 安卓自定义view 初夏征文

8种桌面IDE CodeArts智能代码补全类型

华为云开发者联盟

云计算代码华为云

力扣每日一练之数组中篇Day2

2022淘宝天猫618背后的技术秘密

阿里巴巴大淘宝技术

异步容灾，AntDB的业务不间断数据恢复方案

亚信AntDB数据库

数据库高可用容灾数据恢复

前后端如何并行开发，云端mock了解一下

前端前端开发 Mock Mock 服务前端工具

安擎人工智能计算中心解决方案助推“城市大脑”建设

去中心化交易所套利机器人开发技术

薇電13242772558

区块链去中心化

CRM快速开发平台：破解管理困局

力软低代码开发平台

数商云X日本高化学，共同打造跨境化学品B2B平台新范式

数字化转型 b2b