写点什么

亚马逊 Aurora Serverless 如何管理资源并为包含 10K+ 实例的机群进行扩缩容

作者:Rafal Gancarz

  • 2024-10-08
    北京
  • 本文字数:1246 字

    阅读完需:约 4 分钟

亚马逊 Aurora Serverless 如何管理资源并为包含 10K+ 实例的机群进行扩缩容

AWS 工程师发表了一篇论文,描述了 Amazon Aurora Serverless(无服务器)平台的资源管理和扩缩容的演变以及最新的设计。Aurora Serverless 使用不同级别的组件组合来创建一种全面的方法,用于动态扩展和资源调整,以满足客户工作负载的需求。


Amazon Aurora Serverless 自动扩缩 Amazon Aurora 数据库,以响应不断变化的客户工作负载,并提供成本优化、性能改进和简化的操作。Aurora 客户使用 Aurora 容量单位(Aurora Capacity Units,ACU)配置扩缩边界,服务根据需求动态调整资源。从客户的角度来看,这些扩缩操作不需要任何干预,也不会中断客户端连接或会话状态,但它们可能会影响延迟时间。


当前的 Aurora Serverless 产品是基于 2018 年推出的 ASv1 运维和支持经验而设计的的第二代产品。新设计侧重于就地扩缩(in-place Scaling),使用 CPU 和内存热插拔,支持跨主机的实时迁移。与 ASv1 相比,ASv2 提供了更快、更无缝的扩缩,扩缩增量更小,更具成本效益。


致力于第二代解决方案的团队必须应对许多挑战,其中最主要的挑战是对数据库工作负载进行有效的内存管理,以支持扩展和缩减事件。Linux 和数据库引擎倾向于提交所有可用的内存并保留它们。工程师更改了数据库引擎、Linux 内核和 AWS Nitro 虚拟化管理程序(hypervisor),以便为不同的工作负载提供更灵活的内存管理。



实例管理器服务(来源:Aurora Serverless 中的资源管理)


Amazon Aurora 利用每个实例的管理器服务,根据物理主机上所有实例的需求趋势来控制数据库引擎的资源扩缩。优化数据库引擎在主机之间的放置和可用的资源余量,使 Aurora Serverless 能够确保主机上有足够的资源来适应动态工作负载,而无需在主机之间迁移这些资源。


Aurora Serverless 服务在最广泛的级别上管理着包含数万个计算实例的大型机群。机群管理器(Fleet Manager)服务侧重于根据所需的利用率水平并预测需求进行中长期机群的规模和容量进行调整。当主机面临“热”的风险时,使用主机之间的实时迁移来释放资源。此外,机群管理器可以在“热修复”期间对实例的最大 ACU 施加临时限制。



机群管理器服务(来源:Aurora Serverless 中的资源管理)


工程师们分享了美国 AWS 地区 Aurora 机群的一些数据,指出绝大多数(99.98%)的扩缩事件不需要主机间的迁移,可以通过就地扩缩机制来满足。


论文最后总结了一些关键要点,强调了设计的简单性和一种响应式、指标驱动的资源管理方法。该团队不排除未来在解决方案中引入更多预测元素的可能性,并强调了虚拟化管理程序和操作系统内核共同演进以更好地支持数据库工作负载的进一步机会。

作者介绍

Rafal Gancarz 是一位经验丰富的技术领导者和专家。他目前正在帮助星巴克打造具有可扩展性、弹性和成本效益的商务平台。此前,Rafal 曾为思科、埃森哲、凯德、ICE、Callsign 等公司设计和构建大规模、分布式和基于云的系统。他的兴趣涵盖了架构与设计、持续交付、可观测性和可操作性,以及软件交付的社会技术和组织方面。


原文链接:

https://www.infoq.com/news/2024/08/aurora-serverless-scale-resource/


2024-10-08 08:005173

评论

发布
暂无评论
发现更多内容

必须要了解的11 个 HTML 技巧

伤感汤姆布利柏

精准高效测试计划,人工智能帮你制定

霍格沃兹测试开发学社

印度股票交易系统开发GangguHk

GangguHK

低代码开发平台推荐:国内超好用的十款实测

菜根老谭

低代码 零代码 菜根智库

OLAP进阶之“性能提升”

字节跳动数据平台

数据库 大数据 云原生 数仓 企业号 4 月 PK 榜

【论文速读】| 基于大语言模型的模糊测试技术

云起无垠

【FAQ】HarmonyOS SDK 闭源开放能力 —Push Kit(3)

HarmonyOS SDK

HarmonyOS

低代码:推动新质生产力的引擎

天津汇柏科技有限公司

低代码开发 新质生产力

直播预告 | KaiwuDB 解析器之语义解析

KaiwuDB

数据库 语义分析

新特性速览!Sermant重磅更新,1.4.0 release版本发布

华为云开源

开源 微服务 服务治理 版本更新 sermant

“数字创新产品课程” 7月27-28日 · CSPO认证周末班【提前报名特惠】CST导师亲授

ShineScrum

优雅永不过时:数据库表设计的12个关键点

菜根老谭

数据库 代码规范 菜根智库

“PO高阶精进课程” 8月3-4日 · A-CSPO认证周末班【提前报名特惠】

ShineScrum

一些MaxCompute日常优化案例分享

阿里技术

MaxCompute union dmj

时尚女装连衣裙搜罗:利用阿里巴巴API接口轻松获取心仪商品ID

技术冰糖葫芦

API boy api 货币化 pinduoduo API

通俗易懂关于Paxos的直观解释

京东科技开发者

ChatGPT 人工智能助手为你定制测试计划,精准又高效!

测试人

软件测试 ChatGPT

14款DevOps/SRE工具,助力提升运维效率

SEAL安全

开源 DevOps 运维 SRE

浅谈从浏览器输入URL到页面渲染的流程

京东科技开发者

亚马逊 Aurora Serverless 如何管理资源并为包含 10K+ 实例的机群进行扩缩容_管理/文化_InfoQ精选文章