AWS Lake Formation 入门

阅读数:1 2019 年 12 月 23 日 17:40

AWS Lake Formation 入门

基于 AWS Lake Formation 您可以轻松构建起安全的数据湖。 数据湖是一个集中的、有组织的、安全的数据存储环境,可以存储您的任意规模的结构化和非结构化数据。 您可以按原样存储数据,而无需先对其进行结构化。 您可以运行包括:仪表板、可视化、大数据处理、实时分析和机器学习等各种类型的分析和处理,以更好地指导决策制定。

构建数据湖面临的挑战

数据湖管理的主要挑战,源于原始数据存储内容没有被监管。为了使数据湖中的数据可用,您需要通过定义处理机制对数据进行编目和安全管理。Lake Formation 提供了对数据湖实施治理、语义一致性和访问控制的机制。 Lake Formation 使您的数据更容易的用于分析和机器学习,为您的业务提供更好的价值。Lake Formation 允许您控制和审计对数据湖的访问。AWS Glue Data Catalog 集成了数据访问策略,无论数据来源如何,均可确保合规性。

演练

在本演练中,我将展示如何构建和使用数据湖:

  • 创建数据湖管理员。
  • 注册 Amazon S3 路径。
  • 创建数据库。
  • 授予权限。
  • 使用 AWS Glue 对数据进行爬取,以创建元数据表。
  • 授予对表数据的访问权限。
  • 使用 Amazon Athena 查询数据。
  • 添加具有受限访问权限的新用户并验证结果。

先决条 **** 件

对于本演练,您需要以下资源:

  • AWS 账户
  • 具有 AWSLakeFormationDataAdmin 策略的 IAM 用户。有关更多信息,请参阅 IAM 访问策略
  • 名为 datalake-yourname-region 的 S3 存储桶(位于 US-East (N. Virginia)
  • 新 S3 存储桶中名为 zipcode 的文件夹。

您需要下载样本数据集。在本演练中,使用纽约市统计数据。该数据可在 DATA.GOV 网站上的按邮政编码统计的纽约市人口统计数据表中找到。将文件上传到 S3 存储桶的 /zipcode 文件夹中。

确保您设置好了 S3 存储桶,并且已经将数据集上传到上述位置。现在,使用 Lake Formation 设置您的数据湖。

步骤 1:创建数据湖管理员

首先,将您自己指定为数据湖管理员,以允许访问任何 Lake Formation 资源。

步骤 2:注册 Amazon S3 路径

接下来,注册 Amazon S3 路径以将您的数据包含在数据湖中。

步骤 3:创建数据库

接下来,在 AWS Glue Data Catalog 中创建一个数据库以包含 zipcode 表定义。

  • Database: zipcode-db.
  • Location: 您的 S3 存储桶 /zipcode.
  • New tables in this database: 请不要选择 Grant All to Everyone.

步骤 4:授予权限

接下来,授予 AWS Glue 使用 zipcode-db 数据库的权限。对于“IAM users and roles”,选择你的用户和 AWSGlueServiceRoleDefault

授予你的用户和 AWSServiceRoleForLakeFormationDataAccess 使用数据湖的权限,该数据湖使用以下数据位置:

  • 针对“IAM users and roles”,选择你的用户和 AWSServiceRoleForLakeFormationDataAccess
  • 针对存储位置,输入 s3://datalake-yourname-region。

步骤 5:使用 AWS Glue 对数据进行爬取以创建元数据和表

在此步骤中,爬取程序将连接到数据存储,处理分类器的优先级列表以确定数据的结构,然后在 AWS Glue 数据目录中创建元数据表。

使用 AWS Glue Crawl创建表。使用以下配置设置:

  • Crawler name: zipcodecrawler.
  • Data stores: Select this field.
  • Choose a data store: Select S3.
  • Specified path: Select this field.
  • Include path: s3://datalake-yourname-location/zipcode.
  • Add another data store: Choose No.
  • Choose an existing IAM role: Select this field.
  • IAM role: Select AWSGlueServiceRoleDefault.
  • Run on demand: Select this field.
  • Database: Select zipcode-db.

选择“Run it now? ”。 然后等到爬取程序停止运行,再继续下一步。

本文转载自 AWS 技术博客。

原文链接: https://amazonaws-china.com/cn/blogs/china/getting-started-with-aws-lake-formation/

评论

发布