阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

利用 AWS Lake Formation 探索元数据:第 2 部分(一)

  • 2019-12-20
  • 本文字数:1971 字

    阅读完需:约 6 分钟

利用 AWS Lake Formation 探索元数据:第 2 部分(一)

数据湖是一种用于聚合、存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。


在本博文系列的第 1 部分中


,您学习了如何使用 Lake Formation 来创建和探索数据湖。本博文将引导您使用控制台中的 Lake Formation 的元数据搜索功能来发现数据,并了解受列权限限制的元数据搜索结果。


## 先决条件
对于本博文,您需要:
* [](https://signin.aws.amazon.com/signin?redirect_uri=https%3A%2F%2Fportal.aws.amazon.com%2Fbilling%2Fsignup%2Fresume&client_id=signup)。* 可以访问 [](https://amazonaws-china.com/s3/)、[](https://amazonaws-china.com/glue/) 和 AWS Lake Formation 的 AWS Identity and Access Management (IAM) 用户。
## 控制台中的元数据搜索
在本博文中,我们将演示 Lake Formation 控制台提供的目录搜索功能:
* 按分类搜索* 按关键字搜索* 按“标记:属性”搜索* 多个筛选器搜索
### 按分类搜索
使用元数据目录搜索功能,在数据湖内的所有表中进行搜索。两个表共享名称 **amazon_reviews**,但分别属于模拟的“生产”数据库和“测试”数据库,第三个表是 **trip-data**。
1. 在 Lake Formation 控制台的**数据目录**下,选择**表**。2. 在搜索栏中的**资源属性**下,选择**分类**,键入 **CSV**,然后按 Enter。您应该只会看到 **trip_data** 表,该表在数据湖中格式化为 CSV。**amazon_reviews** 表未显示,因为它们采用 Parquet 格式。3. 在**名称**列中,选择 **trip_data**。在**表详细信息**下,您可以看到元数据搜索筛选器正确识别了分类 **CSV**。
### 按关键字搜索
接下来,按关键字搜索整个数据湖,以筛选元数据。
1. 要刷新表列表,请在**数据目录**下再次选择**表**。2. 在搜索栏中键入 `star_rating`,然后按 Enter**。**现在您已经应用了筛选器,您应该只会看到 **amazon_reviews** 表,因为它们都包含名为 **star_rating** 的列。3. 通过选择两个表中的任何一个,您可以向下滚动到**架构**部分,并确认它们包含 **star_rating** 列。
### 多个筛选器搜索
最后,尝试一次使用多个筛选器搜索整个数据湖。
1. 要刷新表列表,请在**数据目录**下选择**表**。2. 在搜索栏中,选择**位置**,键入 `S3`,然后按 Enter。对于本博文,所有目录表都位于 S3 中,因此将显示所有三个表。3. 在搜索栏中,选择**分类**,键入 `parquet`,然后按 Enter。您应该只会看到 **amazon_reviews** 表,因为它们是 S3 中唯一以 Parquet 格式存储的表。4. 从显示的 **amazon_reviews** 表中任意选择一个表。在**表详细信息**下,您可以看到以下信息。
* **位置**:S3* **分类**:parquet
## 受列权限限制的元数据搜索结果
元数据搜索功能基于在 Lake Formation 中指定的权限来返回结果。如果用户或角色无权访问特定的数据库、表或列,则该元素不会显示在该用户的搜索结果中。
要对此进行演示,请先[](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html#id_users_create_console) **dataResearcher**,该用户可访问 AWS 管理控制台。确保将密码存储在安全位置。
为了简化本博文,为用户附加**管理员访问权限**策略。此策略授予对您的 AWS 账户的完全访问权限,这是过度宽松的访问权限。建议您在学完本博文后删除该用户,或者删除此策略,然后启用多重身份验证 (MFA)。有关更多信息,请参阅[](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html#id_users_create_console)。
[](https://amazonaws-china.com/blogs/big-data/discovering-metadata-with-aws-lake-formation-part-1/),您允许**任何人**查看由 AWS Glue 爬网程序创建的表。现在,请撤销对 **ny-taxi** 数据库的这些权限。
1. 在 Lake Formation 控制台的**权限**下,选择**数据权限**。2. 向下滚动或搜索,直到看到 **trip_data** 表的**任何人**记录。3. 选择记录,然后选择**撤销**、**撤销**。
现在,**dataResearcher** IAM 用户无法查看 **ny-taxi** 数据库或 **trip_data** 表。通过设置 Lake Formation 权限来解决此问题。
1. 在**权限**下,依次选择**数据权限**、**授予**。2. 选择 **dataResearcher** 用户、**ny-taxi** 数据库和 **trip_data** 表。3. 在**表权限**下,选中**选择**,然后选择**授予**。4. 注销控制台,然后使用您先前创建的 **dataResearcher** IAM 用户重新登录。5. 在 Lake Formation 控制台中,依次选择**表**、**trip_data** 表**,**然后查看其属性:![](https://d2908q01vomqb2.awsstatic-china.com/b6692ea5df920cad691c20319a6fffd7a4a766b8/2019/08/15/MetadataLakeFormation1.png)</section>
复制代码


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/discover-metadata-with-aws-lake-formation-part-2/


2019-12-20 15:13469

评论

发布
暂无评论
发现更多内容

轻量级工作流引擎的设计与实现

京东科技开发者

工作流 流程 工作流引擎 迭代 轻量级工作流引擎

前端线下培训学习适合哪些人群

小谷哥

谷歌也开始裁员!谷歌CEO说出理由让人惊叹

雨果

裁员 谷歌 互联网裁员

web前端培训机构怎么选择比较好呢

小谷哥

交付有价值的产品,先澄清用户故事吧!

敏捷开发

产品 项目管理 敏捷开发 软件开发 用户故事

技术分享 | Web自动化之显式等待与隐式等待

霍格沃兹测试开发学社

ESP32-C3入门教程 网络 篇(三、 MQTT 协议基础介绍及测试)

矜辰所致

mqtt ESP32-C3 9月月更

LP单双币双池挖矿dapp系统开发技术详情

开发微hkkf5566

开发者有话说|我的前端开发感悟

国服第二切图仔

个人成长

阿里顶配版 Spring 全家桶高级笔记+学习路线图+硬核资料库,跪着啃完了。。。

Geek_0c76c3

Java 数据库 开源 程序员 架构

如何通过C#/VB.NET代码将Excel工作表拆分为单独的文件

在下毛毛雨

C# .net Excel 拆分

测试人生 | 00后0经验应届毕业生拿下2线城市15W offer,好励志~

霍格沃兹测试开发学社

java培训学习应该注意什么?

小谷哥

Java面试题大全(整理版)1000+面试题附答案详解最全面看完稳了

钟奕礼

Java 面试 java; Java 面试题

阿里云EMAS|App隐私合规“免费”自动化检测

移动研发平台EMAS

阿里云 移动测试 隐私合规 移动研发 App检测

面试 | 互联网大厂测试开发岗位会问哪些问题?

霍格沃兹测试开发学社

美团 3 面 (Java 后台):NIO+BIO+Zookeeper+ 线程池 +Redis+kafka

钟奕礼

Java 面试 java;

100 行代码在微信公众号里集成地图搜索功能

Jerry Wang

html 微信 web开发 微信开发 9月月更

对于火热的MLOps的一些冷静观察

Baihai IDP

人工智能 机器学习 AI MLOps

HMS Core上新啦!

HMS Core

HMS Core

HUE部署

峥岳

hue 安装部署 9月月更

测试面试题集锦(四)| Linux 与 Python 编程篇(附答案)

霍格沃兹测试开发学社

幂等设计详解

京东科技开发者

数据库 系统架构 幂等 研发 幂等设计

IDC:云效产品能力No.1,领跑中国DevOps市场

阿里云云效

DevOps 数字化 产品研发 DevOps工具链

Demo Day直播 | 成长计划解决方案学生挑战赛一等奖即将揭晓!

OpenHarmony开发者

Open Harmony

深圳大数据培训哪家教的好

小谷哥

大数据开发培训周期和方法

小谷哥

一台“厉害”的打印机

华为云开发者联盟

云计算 后端 物联网 企业号九月金秋榜

Flowable 流程部署与删除

江南一点雨

Java springboot flowable

阿里大哥手把手教你从零到一搭建Spring Cloud Alibaba!太强了

Geek_0c76c3

Java 数据库 开源 架构 面经

测试人生 | 疫情之下,1个月内涨薪50%拿下亿级流量金融上市公司新 offer,我柠檬了~

霍格沃兹测试开发学社

利用 AWS Lake Formation 探索元数据:第 2 部分(一)_文化 & 方法_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章