亚马逊云科技为 S3 Tables 添加智能分层存储和复制功能

  • 2026-01-15
    北京
  • 本文字数:1442 字

    阅读完需:约 5 分钟

亚马逊云科技最近宣布为S3 Tables引入两项新功能,第一项功能是新的智能分层存储类,该存储类能够根据访问模式自动优化成本,第二项功能是支持跨 AWS 区域和账户自动维护一致的Apache Iceberg表副本的复制功能,该过程无需手动同步。

 

智能分层存储类会将数据自动分配到最具成本效益的三个低延迟层级之一,即 Frequent Access、Infrequent Access 或 Archive Instant Access。据公司介绍,最后一种是最低成本的层级,比 Infrequent Access 层级便宜 68%。亚马逊云科技的主任开发者倡导者 Sebastian Stromacq 这样写到:

在无访问达 30 天后,数据会被移动到 Infrequent Access 层级,在 90 天后,则会迁移到 Archive Instant Access 层级,这一过程不会对应用程序造成影响或性能降低。

 

默认情况下,表使用标准存储类,但创建表时可以指定智能分层(Intelligent-Tiering)作为存储类,用户也可以在表存储桶级别配置默认存储类。用户可以将智能分层设置为表存储桶的默认存储类,如果在创建表时未指定存储类,那么表将自动存储在智能分层中。

 

用户可以利用AWS命令行界面(AWS CLI),通过 put-table-bucket-storage-class 和 get-table-bucket-storage-class 命令来更改或验证其 S3 表格存储桶的存储层级。相关命令如下所示:

aws s3tables put-table-bucket-storage-class \   --table-bucket-arn $TABLE_BUCKET_ARN  \   --storage-class-configuration storageClass=INTELLIGENT_TIERING# Verify the storage classaws s3tables get-table-bucket-storage-class \   --table-bucket-arn $TABLE_BUCKET_ARN  \{ "storageClassConfiguration":   {      "storageClass": "INTELLIGENT_TIERING"   }}
复制代码

来自 Imperious Enterprise 的 AWS 架构师 Adefemi Adeyemi 在 LinkedIn 的帖子中指出:

大多数分析数据集在一段时间内是“热”的,但随后会逐渐“冷却”。借助 S3 Tables 的智能分层功能,你无需不断调整 Iceberg 数据的生命周期策略。该服务会根据访问模式自动将对象移至更便宜的存储层级,这对长期存在的数据湖来说是一大优势。

 

此外,S3 Tables 的复制功能可以帮助用户跨 AWS 区域和账户维护表格的一致性只读副本。当声明目标表格的存储桶时,服务会创建只读的副本表格,并以时间顺序复制所有更新,同时保持父子快照关系。这些副本表格将在源表格更新后的几分钟内得到更新,并支持独立于源表格的加密和保留策略。

 

Stromacq 说到:

用户可以通过Amazon SageMaker Unified Studio或任何兼容 Iceberg 的引擎(包括DuckDBPyIcebergApache SparkTrino)查询副本表格。

 

借助 AWS Management Console、API 或AWS SDK,用户可以创建和维护表格副本。此外,他们可以指定用于复制源表格的目标表格存储桶。当用户启用复制功能时,S3 Tables 会在这些存储桶中创建只读副本,使用最新状态进行回填,并持续监控更新以保持同步。

 

在同一篇 LinkedIn 帖子中,Adeyemi 指出:

对复制功能的原生支持让你能够快速创建只读副本,这些副本在几分钟内即可与源表保持同步,并且可作为 Iceberg 表进行查询。减少了自定义集成的工作量,让你有更多时间真正使用数据。

 

用户可以通过AWS Cost and Usage ReportsAmazon CloudWatch指标跟踪各访问层的存储使用情况。配置智能分层无需额外费用,用户仅需支付各层的存储成本。至于 S3 Table 的复制,用户需支付目标表格的 S3 Table 的存储费用、复制 PUT 请求的费用、表格更新(提交)以及复制数据的对象的监控费用。更多详情可参见定价页面

 

原文链接:

 AWS Adds Intelligent-Tiering and Replication for S3 Tables