写点什么

亚马逊 Aurora Serverless 如何管理资源并为包含 10K+ 实例的机群进行扩缩容

作者:Rafal Gancarz

  • 2024-10-08
    北京
  • 本文字数:1246 字

    阅读完需:约 4 分钟

亚马逊 Aurora Serverless 如何管理资源并为包含 10K+ 实例的机群进行扩缩容

AWS 工程师发表了一篇论文,描述了 Amazon Aurora Serverless(无服务器)平台的资源管理和扩缩容的演变以及最新的设计。Aurora Serverless 使用不同级别的组件组合来创建一种全面的方法,用于动态扩展和资源调整,以满足客户工作负载的需求。


Amazon Aurora Serverless 自动扩缩 Amazon Aurora 数据库,以响应不断变化的客户工作负载,并提供成本优化、性能改进和简化的操作。Aurora 客户使用 Aurora 容量单位(Aurora Capacity Units,ACU)配置扩缩边界,服务根据需求动态调整资源。从客户的角度来看,这些扩缩操作不需要任何干预,也不会中断客户端连接或会话状态,但它们可能会影响延迟时间。


当前的 Aurora Serverless 产品是基于 2018 年推出的 ASv1 运维和支持经验而设计的的第二代产品。新设计侧重于就地扩缩(in-place Scaling),使用 CPU 和内存热插拔,支持跨主机的实时迁移。与 ASv1 相比,ASv2 提供了更快、更无缝的扩缩,扩缩增量更小,更具成本效益。


致力于第二代解决方案的团队必须应对许多挑战,其中最主要的挑战是对数据库工作负载进行有效的内存管理,以支持扩展和缩减事件。Linux 和数据库引擎倾向于提交所有可用的内存并保留它们。工程师更改了数据库引擎、Linux 内核和 AWS Nitro 虚拟化管理程序(hypervisor),以便为不同的工作负载提供更灵活的内存管理。



实例管理器服务(来源:Aurora Serverless 中的资源管理)


Amazon Aurora 利用每个实例的管理器服务,根据物理主机上所有实例的需求趋势来控制数据库引擎的资源扩缩。优化数据库引擎在主机之间的放置和可用的资源余量,使 Aurora Serverless 能够确保主机上有足够的资源来适应动态工作负载,而无需在主机之间迁移这些资源。


Aurora Serverless 服务在最广泛的级别上管理着包含数万个计算实例的大型机群。机群管理器(Fleet Manager)服务侧重于根据所需的利用率水平并预测需求进行中长期机群的规模和容量进行调整。当主机面临“热”的风险时,使用主机之间的实时迁移来释放资源。此外,机群管理器可以在“热修复”期间对实例的最大 ACU 施加临时限制。



机群管理器服务(来源:Aurora Serverless 中的资源管理)


工程师们分享了美国 AWS 地区 Aurora 机群的一些数据,指出绝大多数(99.98%)的扩缩事件不需要主机间的迁移,可以通过就地扩缩机制来满足。


论文最后总结了一些关键要点,强调了设计的简单性和一种响应式、指标驱动的资源管理方法。该团队不排除未来在解决方案中引入更多预测元素的可能性,并强调了虚拟化管理程序和操作系统内核共同演进以更好地支持数据库工作负载的进一步机会。

作者介绍

Rafal Gancarz 是一位经验丰富的技术领导者和专家。他目前正在帮助星巴克打造具有可扩展性、弹性和成本效益的商务平台。此前,Rafal 曾为思科、埃森哲、凯德、ICE、Callsign 等公司设计和构建大规模、分布式和基于云的系统。他的兴趣涵盖了架构与设计、持续交付、可观测性和可操作性,以及软件交付的社会技术和组织方面。


原文链接:

https://www.infoq.com/news/2024/08/aurora-serverless-scale-resource/


2024-10-08 08:005038

评论

发布
暂无评论
发现更多内容

HyperMesh视觉控制

智造软件

仿真软件 Hypermesh hyperworks

为开源鸿蒙开发者而生,开鸿Bot系列今日预售启动

科技热闻

SDP架构在零信任中的实践

天翼云开发者社区

安全 零信任 sdp

一物一码赋能智能制造:MES如何实现生产全流程数字化追溯

万界星空科技

mes 一物一码 二维码系统 产品二维码管理 二维码追溯

全新 Graviton4 实例,提升 Valkey 性价比

亚马逊云科技 (Amazon Web Services)

vivo 互联网研发效能关键技术与实践

vivo互联网技术

DevOps 研发效能 CI/CD 测试工具

研发流程走出低谷,靠老一套肯定不行了

禅道项目管理

运维 开发 研发流程 禅道项目管理软件 禅道DevOps解决方案

《算法导论(第4版)》阅读笔记:p59-p75

codists

算法

如何检测网站是否支持IPv6?有哪些指标?

国科云

【YashanDB 知识库】JDBC 查询 date 字段不返回时分秒?别只用 getString!

数据库砖家

数据库

【YashanDB 知识库】Mybatis-Plus 如何正确配置分页?Oracle 和 MySQL 写法都能用!

数据库砖家

数据库

Mybatis-Plus 集成 YashanDB 时分页功能怎么配置?

数据库砖家

数据库

YashanDB 启动报错:control file 版本不兼容,怎么处理?

数据库砖家

数据库

YashanDB 报错 YAS-07301:通过 dblink 查询 Oracle 超时?可能是系统资源瓶颈

数据库砖家

数据库

YashanDB 使用 leading hint 报错 YAS-04522?当前版本不支持该写法

数据库砖家

数据库

天翼云助力中国交建,引领交通基建迈入数智新时代!

天翼云开发者社区

交通 大模型 数智化转型

YashanDB|使用 leading hint 优化 SQL 报 YAS-04522 错误的应对方法

数据库砖家

数据库

成功案例丨从草图到鞍座:用先进的发泡成型仿真技术变革鞍座制造

Altair RapidMiner

仿真 CAE Inspire 工业仿真 发泡成型

快手上线鸿蒙应用高性能解决方案:数据反序列化性能提升90%

HarmonyOS开发者

CST如何快速获得微带线或带状线简单分析模型

思茂信息

cst CST软件 CST Studio Suite

原生 iOS App 开发的优势

北京木奇移动技术有限公司

软件外包公司 APP外包 APP开发公司

原生 Android App 开发的优势

北京木奇移动技术有限公司

软件外包公司 APP外包公司 APP开发公司

YashanDB 单机部署时报错:prohibited operation?

数据库砖家

数据库

YashanDB|使用触发器复制 varchar(4000 char) 数据出现乱码问题的处理方案

数据库砖家

数据库

YashanDB 如何限制用户连接数?三步搞定!

数据库砖家

数据库

等保测评:五级等保系统?

黑龙江陆陆信息测评部

LED屏幕天花板安装:打造炫酷空间的实用指南

Dylan

商业 LED LED display LED显示屏 LED屏幕

CodeBuddy 开发者福音!在线简历0元搞定,再也不怕面试翻车!

不惑

CodeBuddy

捷报!天翼云CTyunOS系统入选中央国家机关采购名单!

天翼云开发者社区

操作系统 天翼云 CTyunOS系统

YashanDB 部署报错:YAS-05721 节点名非法怎么办?

数据库砖家

数据库

YashanDB|YMP 报错“OCI 版本为空或架构不一致”?一文快速排查

数据库砖家

数据库

亚马逊 Aurora Serverless 如何管理资源并为包含 10K+ 实例的机群进行扩缩容_管理/文化_InfoQ精选文章