AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

利用 AWS Lake Formation 探索元数据:第 2 部分(一)

  • 2019-12-20
  • 本文字数:1971 字

    阅读完需:约 6 分钟

利用 AWS Lake Formation 探索元数据:第 2 部分(一)

数据湖是一种用于聚合、存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。


在本博文系列的第 1 部分中


,您学习了如何使用 Lake Formation 来创建和探索数据湖。本博文将引导您使用控制台中的 Lake Formation 的元数据搜索功能来发现数据,并了解受列权限限制的元数据搜索结果。


## 先决条件
对于本博文,您需要:
* [](https://signin.aws.amazon.com/signin?redirect_uri=https%3A%2F%2Fportal.aws.amazon.com%2Fbilling%2Fsignup%2Fresume&client_id=signup)。* 可以访问 [](https://amazonaws-china.com/s3/)、[](https://amazonaws-china.com/glue/) 和 AWS Lake Formation 的 AWS Identity and Access Management (IAM) 用户。
## 控制台中的元数据搜索
在本博文中,我们将演示 Lake Formation 控制台提供的目录搜索功能:
* 按分类搜索* 按关键字搜索* 按“标记:属性”搜索* 多个筛选器搜索
### 按分类搜索
使用元数据目录搜索功能,在数据湖内的所有表中进行搜索。两个表共享名称 **amazon_reviews**,但分别属于模拟的“生产”数据库和“测试”数据库,第三个表是 **trip-data**。
1. 在 Lake Formation 控制台的**数据目录**下,选择**表**。2. 在搜索栏中的**资源属性**下,选择**分类**,键入 **CSV**,然后按 Enter。您应该只会看到 **trip_data** 表,该表在数据湖中格式化为 CSV。**amazon_reviews** 表未显示,因为它们采用 Parquet 格式。3. 在**名称**列中,选择 **trip_data**。在**表详细信息**下,您可以看到元数据搜索筛选器正确识别了分类 **CSV**。
### 按关键字搜索
接下来,按关键字搜索整个数据湖,以筛选元数据。
1. 要刷新表列表,请在**数据目录**下再次选择**表**。2. 在搜索栏中键入 `star_rating`,然后按 Enter**。**现在您已经应用了筛选器,您应该只会看到 **amazon_reviews** 表,因为它们都包含名为 **star_rating** 的列。3. 通过选择两个表中的任何一个,您可以向下滚动到**架构**部分,并确认它们包含 **star_rating** 列。
### 多个筛选器搜索
最后,尝试一次使用多个筛选器搜索整个数据湖。
1. 要刷新表列表,请在**数据目录**下选择**表**。2. 在搜索栏中,选择**位置**,键入 `S3`,然后按 Enter。对于本博文,所有目录表都位于 S3 中,因此将显示所有三个表。3. 在搜索栏中,选择**分类**,键入 `parquet`,然后按 Enter。您应该只会看到 **amazon_reviews** 表,因为它们是 S3 中唯一以 Parquet 格式存储的表。4. 从显示的 **amazon_reviews** 表中任意选择一个表。在**表详细信息**下,您可以看到以下信息。
* **位置**:S3* **分类**:parquet
## 受列权限限制的元数据搜索结果
元数据搜索功能基于在 Lake Formation 中指定的权限来返回结果。如果用户或角色无权访问特定的数据库、表或列,则该元素不会显示在该用户的搜索结果中。
要对此进行演示,请先[](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html#id_users_create_console) **dataResearcher**,该用户可访问 AWS 管理控制台。确保将密码存储在安全位置。
为了简化本博文,为用户附加**管理员访问权限**策略。此策略授予对您的 AWS 账户的完全访问权限,这是过度宽松的访问权限。建议您在学完本博文后删除该用户,或者删除此策略,然后启用多重身份验证 (MFA)。有关更多信息,请参阅[](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users_create.html#id_users_create_console)。
[](https://amazonaws-china.com/blogs/big-data/discovering-metadata-with-aws-lake-formation-part-1/),您允许**任何人**查看由 AWS Glue 爬网程序创建的表。现在,请撤销对 **ny-taxi** 数据库的这些权限。
1. 在 Lake Formation 控制台的**权限**下,选择**数据权限**。2. 向下滚动或搜索,直到看到 **trip_data** 表的**任何人**记录。3. 选择记录,然后选择**撤销**、**撤销**。
现在,**dataResearcher** IAM 用户无法查看 **ny-taxi** 数据库或 **trip_data** 表。通过设置 Lake Formation 权限来解决此问题。
1. 在**权限**下,依次选择**数据权限**、**授予**。2. 选择 **dataResearcher** 用户、**ny-taxi** 数据库和 **trip_data** 表。3. 在**表权限**下,选中**选择**,然后选择**授予**。4. 注销控制台,然后使用您先前创建的 **dataResearcher** IAM 用户重新登录。5. 在 Lake Formation 控制台中,依次选择**表**、**trip_data** 表**,**然后查看其属性:![](https://d2908q01vomqb2.awsstatic-china.com/b6692ea5df920cad691c20319a6fffd7a4a766b8/2019/08/15/MetadataLakeFormation1.png)</section>
复制代码


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/discover-metadata-with-aws-lake-formation-part-2/


2019-12-20 15:13684

评论

发布
暂无评论
  • Programming abstractions in C 阅读笔记:p184-p195

    《Programming Abstractions In C》学习第61天,p184-p195总结。

    2023-11-06

  • 第 9 期 | GPTSecurity 周报

    GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练 Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。

    2023-10-24

  • 【1.6-1.13】写作社区优秀技术博文一览

    为了让更多的创作者有展示自己的舞台,为了让更多优质内容有发光发热的机会,InfoQ 官方写作社区会时不时向大家推荐近期发布在社区的优质作品和入驻的新创作者们。

    2023-01-13

  • AWS 亚马逊云科技 1 亿美金入局 AIGC,哪些 AI 云服务已经可以对标微软、谷歌?

    撰文|宇婷

    2023-06-25

  • 云中白鹤——AWS 云中的身份管理与访问控制之伟大的角色

    2022-08-30

  • 云净天空——浅谈云中负载均衡器(上)

    作为服务端承上启下的云端负载均衡器,有了基于当代发展的 PaaS 级现象级产品,每个云厂商对负载均衡器都进行了针对性的配置和封装,让它更加符合当代开发运维的使用习惯。今天我来介绍一下当下几种主流的几种负载均衡器,带你熟悉不同负载均衡器的作用、适用范围及其适用场景,这会对我们的业务有很大的帮助。 讲师介绍 吕蕴偲,SRE 工程师,就职于国内某云服务商,负责 DevOps 及云上解决方案架构设计,具有多年云行业相关领域经验。熟悉 AWS 亚马逊云、阿里云等公有云,对多云云上架构设计部署有相关经验。 内容看点 云负载均衡器的类型与特性 云负载均衡器的组件工作原理

    2022-06-28

  • Fashion MNIST 数据集介绍

    2020-06-11

  • 最好精准计划导师带赚——玩家经验分享

    最好精准计划导师带赚✅郑凯<企鵝 Q>⎝5310129⎠ ✅「網」⎝37qy.cc⎠✅自 带 邀 请 码 ✅输入惘芷主彻来微聊好友找我✅行业第一✅疯狂彩金天天派送✅2 顶级信誉✅顶级体验✅平台微`聊✅联.系郑荖溮✅ “十年经验,都是专业的指导/规划/技巧✅没有做不到的事

    2023-09-05

  • 云屯雨集——云厂商如何保证我们的云服务安全性和高可用性?

    2022-05-20

  • 轻松玩转 70 亿参数大模型!借助 Walrus 在 AWS 上部署 Llama2

    Llama 2 是 Meta 的下一代开源大语言模型。它是一系列经过预训练和微调的模型,参数范围从 70 亿到 700 亿个。Meta Llama 2 可免费用于研究和商业用途并且提供了一系列具有不同大小和功能的模型,因此一经发布备受关注。在之前的文章中,我们详细地介绍了Lla

    2023-08-23

  • 接口测试|Fiddler 弱网测试

    搜索微信公众号: 霍格沃兹测试学院,学习更多测试开发前沿技术

    2023-06-26

  • web 前端培训程序员学习什么呢

    近年来IT行业发展的迅速,同时IT行业的发展向着众多领域的开发方向,不同领域的开发技术程序员所根据行业的不同,需要学习的开发技术知识是不同的,小伙伴在选择程序员开发技术学习的时候,可以根据自身的爱好兴趣来选择一个比较适合自己的学习方向,选择一个

    2022-12-01

  • 大模型驱动云计算创新变革

    大模型将驱动云计算的创新,并重塑云计算的产业格局。大模型的发展不同于以往的AI技术迭代,它同时驱动了底层IT基础设施的重构,也带来了上层应用开发模式的变革。

    2023-09-08

  • 每周一起背 10 句 | week 09

    本周我们进入了最后一篇语料。我把本周一起读过的句子放在这里,你可以试试背诵这些句子,感受下和之前背诵的句子有什么不同。

    2020-07-11

  • 数据通信网络之使用 eNSP 组网

    数据通信网络之使用 eNSP 组网

    2023-09-07

  • 如何赋能企业数字化转型?华为云有妙招

    近年来,全球疫情的蔓延加速了企业数字化转型的步伐,数字化的浪潮席卷了各行各业。作为一种新型的生产组织方式,“云时代”正在改变人们对传统行业的认知。许多企业在逆流中寻求新的办公和管理模式,混合办公和泛办公模式越来越普遍,每个人的工作、学习和生

    2023-09-12

  • 博睿数据 Bonree ONE 秋季产品发布会,即将震撼启幕!

    明天(10月20日下午2点)博睿数据 Bonree ONE 秋季产品发布会,即将震撼启幕!

    2023-10-19

  • 使用 QuTrunk+Amazon ParallelCluster3 进行并行计算

    1.丘秉宜;2.邵伟;3.黄文;4.郭梦杰;5.刘利;6.刘波

    2022-12-27

  • 手把手教你使用 JConsole

    讲师介绍: 白芷,复星金服高级研发工程师,中国计算机学会会员,擅长互联网应用、金融支付平台等架构设计和研发,精通高并发、分布式、微服务系统的架构设计,有自己独特的见解和体会。 问题背景: 目前市面上有多种 JVM 监控工具供我们选择,其中 JConsole 是 JDK 官方的监控工具,也是最简单的。我们工作中遇到的大多数问题使用 JDK 自带的命令工具 +JConsole 是足够的。实际上 一直以来,JConsole 都是被低估的工具,今天我们通过一些例子来看看如何用 JConsole 实现一些常规的监控。 内容看点: 利用 JConsole 实现死锁检测实例 利用 JConsole 监控 JVM 实例

    2022-01-25

  • 【1.27-2.3】写作社区优秀技术博文一览

    为了让更多的创作者有展示自己的舞台,为了让更多优质内容有发光发热的机会,InfoQ 官方写作社区会时不时向大家推荐近期发布在社区的优质作品和入驻的新创作者们。

    2023-02-03

发现更多内容

搭载自研处理器 Amazon Graviton2 的 Amazon EC2 X2gd 已全面可用 | 新服务上线

亚马逊云科技 (Amazon Web Services)

抢购倒计时自定义控件的实现与优化

vivo互联网技术

动画 安卓 自定义控件 倒计时

【LeetCode】实现 strStr()Java题解

Albert

算法 LeetCode 4月日更

MySQL常用引擎及优缺点

Sakura

4月日更

重磅更新!运维工程师打怪升级进阶之路 3.0(体系化带你全面从入门到企业实战)

民工哥

Linux 后端 linux运维 运维工程师 linux学习

全程干货!拍乐云受邀LiveVideoStackCon,首席科学家分享拥塞控制最佳实践

拍乐云Pano

多源数据即席查询Trino(Presto)引擎剖析

小舰

4月日更

【签约计划】行业分析能力考核成绩公布

InfoQ写作社区官方

签约计划 热门活动

低代码:正在改变软件的开发方式

华为云开发者联盟

软件开发 低代码 低代码平台 华为云应用魔方 AppCube

我很久没写代码了,但我是个好架构师

四猿外

Java 程序员 系统架构 架构师 代码

聪明人的训练(二十)

Changing Lin

4月日更

iMazing 一款替代iTunes的数据备份软件

懒得勤快

ios Mac imazing 手机管理

游戏开发者福音!我们和 TapTap 将为您提供全套的发行服务!

亚马逊云科技 (Amazon Web Services)

行动起来!为迁移到自己的证书颁发机构做好准备!

亚马逊云科技 (Amazon Web Services)

架构实战营 - 模块 2- 总结

吴建中

架构实战营

三色标记原理,我给应聘者问懵了...

华为云开发者联盟

Java 节点 三色标记 SATB算法 回收器

阿里员工:最惨P7,33岁才28K,感觉没有前途了。网友调侃:最美逆行者

程序员生活志

华为云PB级数据库GaussDB(for Redis)揭秘第八期:用高斯 Redis 进行计数

华为云开发者联盟

redis GaussDB(for Redis) 计数器 计数

我们携手东软集团,助力智能汽车“乘云转型达四海” | 精选案例

亚马逊云科技 (Amazon Web Services)

使用 Amazon SageMaker 特征存放区存储、发现和共享机器学习特性!

亚马逊云科技 (Amazon Web Services)

架构实战营 - 模块 2- 微信朋友圈高性能复杂度分析

吴建中

架构实战营

计算机原理学习笔记Day11

穿过生命散发芬芳

计算机原理 4月日更

神级Android进阶笔记!一次关于JVM的面试经历,建议收藏

欢喜学安卓

android 程序员 面试 移动开发

面试加分项!为了跳槽强刷1000道Android真题,附小技巧

欢喜学安卓

android 程序员 面试 移动开发

Linux tree命令

一个大红包

Linux linux命令 4月日更

GitHub开源:100美元自制激光雷达

不脱发的程序猿

GitHub 开源 DIY 4月日更 激光雷达

专家呼吁:保护肾脏,从关注酸性尿开始

E科讯

SpringBoot极简集成Shiro

Java小咖秀

spring springboot shiro

芯片设计软件上云新思路!看珂晶达如何高效拓宽市场 | 精选案例

亚马逊云科技 (Amazon Web Services)

NoCode 实战 | 想要开发在线选课系统?何必那样大费周章!

亚马逊云科技 (Amazon Web Services)

搭建亿级时间线数据的监控系统,我有绝招!

华为云开发者联盟

Grafana 监控系统 GaussDB(for Influx) 华为云数据库 时间线

利用 AWS Lake Formation 探索元数据:第 2 部分(一)_文化 & 方法_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章