写点什么

亚马逊 Aurora Serverless 如何管理资源并为包含 10K+ 实例的机群进行扩缩容

作者:Rafal Gancarz

  • 2024-10-08
    北京
  • 本文字数:1246 字

    阅读完需:约 4 分钟

亚马逊 Aurora Serverless 如何管理资源并为包含 10K+ 实例的机群进行扩缩容

AWS 工程师发表了一篇论文,描述了 Amazon Aurora Serverless(无服务器)平台的资源管理和扩缩容的演变以及最新的设计。Aurora Serverless 使用不同级别的组件组合来创建一种全面的方法,用于动态扩展和资源调整,以满足客户工作负载的需求。


Amazon Aurora Serverless 自动扩缩 Amazon Aurora 数据库,以响应不断变化的客户工作负载,并提供成本优化、性能改进和简化的操作。Aurora 客户使用 Aurora 容量单位(Aurora Capacity Units,ACU)配置扩缩边界,服务根据需求动态调整资源。从客户的角度来看,这些扩缩操作不需要任何干预,也不会中断客户端连接或会话状态,但它们可能会影响延迟时间。


当前的 Aurora Serverless 产品是基于 2018 年推出的 ASv1 运维和支持经验而设计的的第二代产品。新设计侧重于就地扩缩(in-place Scaling),使用 CPU 和内存热插拔,支持跨主机的实时迁移。与 ASv1 相比,ASv2 提供了更快、更无缝的扩缩,扩缩增量更小,更具成本效益。


致力于第二代解决方案的团队必须应对许多挑战,其中最主要的挑战是对数据库工作负载进行有效的内存管理,以支持扩展和缩减事件。Linux 和数据库引擎倾向于提交所有可用的内存并保留它们。工程师更改了数据库引擎、Linux 内核和 AWS Nitro 虚拟化管理程序(hypervisor),以便为不同的工作负载提供更灵活的内存管理。



实例管理器服务(来源:Aurora Serverless 中的资源管理)


Amazon Aurora 利用每个实例的管理器服务,根据物理主机上所有实例的需求趋势来控制数据库引擎的资源扩缩。优化数据库引擎在主机之间的放置和可用的资源余量,使 Aurora Serverless 能够确保主机上有足够的资源来适应动态工作负载,而无需在主机之间迁移这些资源。


Aurora Serverless 服务在最广泛的级别上管理着包含数万个计算实例的大型机群。机群管理器(Fleet Manager)服务侧重于根据所需的利用率水平并预测需求进行中长期机群的规模和容量进行调整。当主机面临“热”的风险时,使用主机之间的实时迁移来释放资源。此外,机群管理器可以在“热修复”期间对实例的最大 ACU 施加临时限制。



机群管理器服务(来源:Aurora Serverless 中的资源管理)


工程师们分享了美国 AWS 地区 Aurora 机群的一些数据,指出绝大多数(99.98%)的扩缩事件不需要主机间的迁移,可以通过就地扩缩机制来满足。


论文最后总结了一些关键要点,强调了设计的简单性和一种响应式、指标驱动的资源管理方法。该团队不排除未来在解决方案中引入更多预测元素的可能性,并强调了虚拟化管理程序和操作系统内核共同演进以更好地支持数据库工作负载的进一步机会。

作者介绍

Rafal Gancarz 是一位经验丰富的技术领导者和专家。他目前正在帮助星巴克打造具有可扩展性、弹性和成本效益的商务平台。此前,Rafal 曾为思科、埃森哲、凯德、ICE、Callsign 等公司设计和构建大规模、分布式和基于云的系统。他的兴趣涵盖了架构与设计、持续交付、可观测性和可操作性,以及软件交付的社会技术和组织方面。


原文链接:

https://www.infoq.com/news/2024/08/aurora-serverless-scale-resource/


2024-10-08 08:005227

评论

发布
暂无评论
发现更多内容

软件测试/测试开发丨Python 数据类 dataclass 学习笔记

测试人

Python 软件测试 dataclass

HashData:让大模型“飞入寻常百姓家”

酷克数据HashData

软件测试 | Java语言的特点

测吧(北京)科技有限公司

测试

笔记软件哪个好用?36款好用的笔记软件合集推荐!

彭宏豪95

效率工具 markdown 在线工具 Mac笔记软件 笔记应用

大模型基础学习

天天向上

IBM收购数据可观测性厂商 Databand.ai

乘云数字DataBuff

阿里云蝉联 FaaS 领导者,产品能力获最高分

阿里巴巴云原生

阿里云 云原生 函数计算

关于硬件加速器FPGA的异构加速流程&龙蜥CI框架及实践介绍 | 第 87-88 期

OpenAnolis小助手

ci 开源 sig 龙蜥大讲堂 浪潮信息

复杂商业变局下,半导体企业如何进行研发数字化转型|标杆案例

万事ONES

大语言模型的预训练[3]之Prompt Learning:Prompt Engineering | 社区征文

汀丶人工智能

人工智能 自然语言处理 prompt learning 年中技术盘点 prompt 工程

生成式 AI 的发展 | 社区征文

BROKEN

年中技术盘点

Java 踩坑 2|Feign Client 访问到 Consul 脏节点/故障节点

itschenxiang

Java Consul springboot

代码随想录 Day21 - 二叉树(七)

jjn0703

点云标注中的隐私保护和数据安全问题

数据堂

如何拓展自己边界

FunTester

AI大模型应用开发实战营——作业1

zhihai.tu

大模型

2023-07-18:给你一个正整数数组 nums,请你移除 最短 子数组(可以为 空), 使得剩余元素的 和 能被 p 整除。 不允许 将整个数组都移除。 请你返回你需要移除的最短子数组的长度,如果

福大大架构师每日一题

福大大架构师每日一题

分布式系统中的数据复制

越长大越悲伤

分布式 数据复制

云拨测全面升级丨单次拨测低至 0.001 元

阿里巴巴云原生

阿里云 云原生 可观测

【活动】30 秒上云体验,一键体验 RocketMQ 六大生产环境

阿里巴巴云原生

阿里云 云原生 Apache RocketMQ

在《比特与瓦特》的交点,藏着未来能源的一些真相

脑极体

新能源

【Java技术专题】「攻破技术盲区」带你攻破你很可能存在的Java技术盲点之动态性技术原理指南(方法句柄—基础篇)

码界西柚

Java 技术分析

大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解 |社区征文

汀丶人工智能

人工智能 自然语言处理 GPT GPT-4 年中技术盘点

C语言如何实现DES加密与解密

芯动大师

shardingsphere配置读写分离集群(1主2从结构)

zhengzai7

读写分离 ShadingSphere

《Programming Abstractions In C》阅读笔记p69-p71

codists

亚马逊 Aurora Serverless 如何管理资源并为包含 10K+ 实例的机群进行扩缩容_管理/文化_InfoQ精选文章