利用 AWS Lake Formation 探索元数据:第 2 部分(一)

阅读数:15 2019 年 12 月 20 日 15:13

利用 AWS Lake Formation 探索元数据:第 2 部分(一)

数据湖是一种用于聚合、存储和分析结构化和非结构化数据的日益流行的方法。 AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。

在本博文系列的第 1 部分中,您学习了如何使用 Lake Formation 来创建和探索数据湖。本博文将引导您使用控制台中的 Lake Formation 的元数据搜索功能来发现数据,并了解受列权限限制的元数据搜索结果。
复制代码
## 先决条件
对于本博文,您需要:
* 可以访问 Amazon S3 AWS Glue 和 AWS Lake Formation 的 AWS Identity and Access Management (IAM) 用户。
## 控制台中的元数据搜索
在本博文中,我们将演示 Lake Formation 控制台提供的目录搜索功能:
* 按分类搜索
* 按关键字搜索
* 按“标记:属性”搜索
* 多个筛选器搜索
### 按分类搜索
使用元数据目录搜索功能,在数据湖内的所有表中进行搜索。两个表共享名称 **amazon_reviews**,但分别属于模拟的“生产”数据库和“测试”数据库,第三个表是 **trip-data**
1. 在 Lake Formation 控制台的 ** 数据目录 ** 下,选择 ** 表 **
2. 在搜索栏中的 ** 资源属性 ** 下,选择 ** 分类 **,键入 **CSV**,然后按 Enter。您应该只会看到 **trip_data** 表,该表在数据湖中格式化为 CSV。**amazon_reviews** 表未显示,因为它们采用 Parquet 格式。
3. ** 名称 ** 列中,选择 **trip_data**。在 ** 表详细信息 ** 下,您可以看到元数据搜索筛选器正确识别了分类 **CSV**
### 按关键字搜索
接下来,按关键字搜索整个数据湖,以筛选元数据。
1. 要刷新表列表,请在 ** 数据目录 ** 下再次选择 ** 表 **
2. 在搜索栏中键入 `star_rating`,然后按 Enter**。** 现在您已经应用了筛选器,您应该只会看到 **amazon_reviews** 表,因为它们都包含名为 **star_rating** 的列。
3. 通过选择两个表中的任何一个,您可以向下滚动到 ** 架构 ** 部分,并确认它们包含 **star_rating** 列。
### 多个筛选器搜索
最后,尝试一次使用多个筛选器搜索整个数据湖。
1. 要刷新表列表,请在 ** 数据目录 ** 下选择 ** 表 **
2. 在搜索栏中,选择 ** 位置 **,键入 `S3`,然后按 Enter。对于本博文,所有目录表都位于 S3 中,因此将显示所有三个表。
3. 在搜索栏中,选择 ** 分类 **,键入 `parquet`,然后按 Enter。您应该只会看到 **amazon_reviews** 表,因为它们是 S3 中唯一以 Parquet 格式存储的表。
4. 从显示的 **amazon_reviews** 表中任意选择一个表。在 ** 表详细信息 ** 下,您可以看到以下信息。
* ** 位置 **:S3
* ** 分类 **:parquet
## 受列权限限制的元数据搜索结果
元数据搜索功能基于在 Lake Formation 中指定的权限来返回结果。如果用户或角色无权访问特定的数据库、表或列,则该元素不会显示在该用户的搜索结果中。
要对此进行演示,请先创建 IAM 用户 **dataResearcher**,该用户可访问 AWS 管理控制台。确保将密码存储在安全位置。
为了简化本博文,为用户附加 ** 管理员访问权限 ** 策略。此策略授予对您的 AWS 账户的完全访问权限,这是过度宽松的访问权限。建议您在学完本博文后删除该用户,或者删除此策略,然后启用多重身份验证 (MFA)。有关更多信息,请参阅在控制台中创建 IAM 用户
在本系列的第 1 部分中,您允许 ** 任何人 ** 查看由 AWS Glue 爬网程序创建的表。现在,请撤销对 **ny-taxi** 数据库的这些权限。
1. 在 Lake Formation 控制台的 ** 权限 ** 下,选择 ** 数据权限 **
2. 向下滚动或搜索,直到看到 **trip_data** 表的 ** 任何人 ** 记录。
3. 选择记录,然后选择 ** 撤销 **** 撤销 **
现在,**dataResearcher** IAM 用户无法查看 **ny-taxi** 数据库或 **trip_data** 表。通过设置 Lake Formation 权限来解决此问题。
1. 在 ** 权限 ** 下,依次选择 ** 数据权限 **** 授予 **
2. 选择 **dataResearcher** 用户、**ny-taxi** 数据库和 **trip_data** 表。
3. ** 表权限 ** 下,选中 ** 选择 **,然后选择 ** 授予 **
4. 注销控制台,然后使用您先前创建的 **dataResearcher** IAM 用户重新登录。
5. 在 Lake Formation 控制台中,依次选择 ** 表 ****trip_data****,** 然后查看其属性:! </section>

本文转载自 AWS 技术博客。

原文链接: https://amazonaws-china.com/cn/blogs/china/discover-metadata-with-aws-lake-formation-part-2/

欲了解 AWS 的更多信息,请访问【AWS 技术专区】

评论

发布