NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

利用 AWS Lake Formation 探索元数据:第 1 部分(一)

  • 2019-12-20
  • 本文字数:1604 字

    阅读完需:约 5 分钟

利用 AWS Lake Formation 探索元数据:第 1 部分(一)

数据湖是一种用于创建单个存储库以存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。本博文将引导您使用 Lake Formation 来创建和探索数据湖:


  • 创建数据湖


o 将数据添加到数据湖


o 创建目录数据库


o 将表从 Amazon S3 添加到目录数据库


  • 在目录中编辑和添加元数据


o 编辑标准元数据


o 添加自定义元数据

先决条件

对于本博文,您需要:



创建数据湖

AWS Lake Formation 控制台的左侧导航窗格中,选择注册并提取、**数据湖位置。选择一个 S3 存储桶以在您的数据湖中容纳几个独立的数据源。有关更多信息,请参阅什么是 AWS Lake Formation?


**

将数据添加到数据湖

现在,您已经将 S3 存储桶配置为 Lake Formation 的存储资源,您必须将数据添加到数据湖。您可以使用 AWS SDK、AWS CLI、S3 控制台或 Lake Formation 蓝图将数据添加到数据湖的 S3 存储桶存储资源中。


借助 Lake Formation,您可以发现并设置源数据的提取。添加用于加载或更新数据湖的工作流时,可以选择要添加的导入程序类型的蓝图或模板。Lake Formation 在 Lake Formation 控制台上为通用源数据类型提供了多个蓝图,旨在简化工作流的创建。工作流指向您的数据源和目标,并且指定了它们运行的频率。


对于本博文,请使用 AWS CLI 下载示例数据,然后将其上传到您的 S3 存储后端。其他导入方法(例如 Lake Formation 数据导入程序)不在本文讨论范围内。


AWS 开放数据注册表上提供的以下两个数据集中的示例:



在数据湖中制作两份 Amazon 客户评论数据集副本。您可以使用它们来模拟“生产”数据集和“测试”数据集,并了解在搜索元数据目录时如何定位其中一个或两个数据集。


为了演示 AWS 数据湖的灵活性,请将 CSV 和 Parquet 数据集都添加到您的数据湖。在这两种情况下,请为 S3 对象使用以下命名约定:


s3://BUCKET_NAME/DATABASE_NAME/TABLE_NAME/<data files>

将 Amazon 客户评论添加到数据湖

AWS 托管了一个注册表,可帮助用户共享和发现各种数据集。对于本博文,请将 Amazon 客户评论数据集的子集添加到数据湖。您无须复制完整的评论数据集,只需复制观看评论中较小的 226 MB 部分。您需要在数据湖中添加此数据的两个副本,以模拟单独的“生产”数据库和“测试”数据库。


  1. 如果尚未添加,请使用 IAM 用户访问密钥安装和配置 AWS CLI,该密钥包含从 S3 中读取并写入 Lake Formation S3 存储桶的权限。

  2. 将源数据复制到数据湖:


   # 使用您的存储桶名称进行替换:   YOUR_BUCKET=lf-metadata-demo
aws s3 cp \ s3://amazon-reviews-pds/parquet/product_category=Watches/ \ s3://$YOUR_BUCKET/amazon-reviews-prod/amazon-reviews/ --recursive
aws s3 cp \ s3://amazon-reviews-pds/parquet/product_category=Watches/ \ s3://$YOUR_BUCKET/amazon-reviews-test/amazon-reviews/ --recursive
复制代码


  1. 在 S3 控制台中,确认您的 S3 存储桶现在包含两个 Amazon 评论数据集。

  2. 检查文件夹的内容。数据集采用 Parquet 格式。

将纽约出租车行车历史记录添加到数据湖

按照您对 Amazon 客户评论数据集所执行的操作,将纽约出租车行车历史记录的一个小子集从 AWS 开放数据注册表复制到数据湖:


  1. 将源数据复制到数据湖:


   # 使用您的存储桶名称进行替换:   YOUR_BUCKET=lf-metadata-demo
aws s3 cp \ “s3://nyc-tlc/trip data/green_tripdata_2018-02.csv” \ “s3://$YOUR_BUCKET/ny-taxi/trip-data/green_tripdata_2018-02.csv”
复制代码


  1. 在 S3 控制台中,确认您的 S3 存储桶包含纽约出租车行程的 CSV 数据。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/discovering-metadata-with-aws-lake-formation-part-1/


2019-12-20 15:13676

评论

发布
暂无评论
发现更多内容

低代码平台技术分享官丨系统集成系列之服务发布

inBuilder低代码平台

集成

SnailSVN Pro for mac(SVN客户端)v1.10永久激活版

mac

苹果mac Windows软件 SnailSVN SVN客户端工具

交易所开发、交易所上币费

西安链酷科技

软件开发 公链开发

一文带你彻底了解JMX

这我可不懂

Java JMX

原来低代码开发如此简单

树上有只程序猿

软件开发 低代码 JNPF

轻松理解 Transformers(2):Attention部分

Baihai IDP

人工智能 深度学习 AI Transformer 白海科技

众行远,华为携手多家数字教育集团加速培养鸿蒙生态人才

最新动态

Mac修图必备软件Photoshop 2023破解版

iMac小白

photoshop下载 Photoshop2023 Photoshop2023 Mac

Sketch for Mac最新破解版下载 完美兼容M1

iMac小白

sketch Mac Sketch下载 Sketch 98 Sketch破解版

项目经理必备:6种有效的项目估算方法

PingCode

项目经理 项目经理项目估算

外贸独立站怎么运营?零基础小白必看!

九凌网络

枚举

DAPP币安链代币合约质押挖矿系统开发源码

l8l259l3365

iStat Menus for Mac(系统活动监控器) v6.72 (1226)中文激活版

mac

苹果mac Windows软件 iStat Menus 系统监控工具

TCL实业积极践行ESG理念,绿色设计引领全球

科技热闻

第16期 | GPTSecurity周报

云起无垠

大家使用 Sealos 一键部署 Kubernetes 集群

米开朗基杨

Steinberg Cubase Pro 12 for mac激活版下载

iMac小白

Steinberg Cubase Pro Cubase Pro 12 Cubase Pro 下载 Cubase Pro 破解版

快手持续落地AIGC新应用场景 开启内测“AI小快”

Geek老T

AI 短视频 AIGC

第17期 | GPTSecurity周报

云起无垠

Pixelmator Pro for Mac(图像编辑软件) v3.4.3完美直装版

mac

Pixelmator Pro 苹果mac Windows软件 图像编辑软件

交易所系统开发 交易所开发成品案例部署

西安链酷科技

合约交易所开发 交易所搭建

Acrobat Pro DC 2023 for mac中文完美破解版

iMac小白

Acrobat Pro DC 2023 Acrobat Pro DC下载 Acrobat Pro DC破解版 Acrobat Pro DC mac

开发一个简单的管理系统,前端选择 Vue 还是 React?

互联网工科生

Vue React 管理系统

DAPP 燃烧质押 TITAN 挖矿系统开发

l8l259l3365

Gradle 新功能,你不能不知道

树上有只程序猿

Gradle

西安数字货币挖矿系统、量化交易软件系统开发、

西安链酷科技

云算力挖矿系统开发详解 挖矿系统开发

Dual band WiFi 6 power with IPQ4019 and QCN9024 chips - the wireless future of choice

wifi6-yiyi

IPQ4019

Vue前后端分离的低代码开发框架

这我可不懂

Vue 前后端分离 低代码 JNPF

nft数藏平台搭建!数字藏品app开发

西安链酷科技

元宇宙系统开发

Downie 4 for Mac中文完美破解版 支持MacOS14

iMac小白

Downie 4 Mac版 Downie 4下载 Downie 4破解版

利用 AWS Lake Formation 探索元数据:第 1 部分(一)_行业深度_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章