AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

利用 AWS Lake Formation 探索元数据:第 1 部分(一)

  • 2019-12-20
  • 本文字数:1604 字

    阅读完需:约 5 分钟

利用 AWS Lake Formation 探索元数据:第 1 部分(一)

数据湖是一种用于创建单个存储库以存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。本博文将引导您使用 Lake Formation 来创建和探索数据湖:


  • 创建数据湖


o 将数据添加到数据湖


o 创建目录数据库


o 将表从 Amazon S3 添加到目录数据库


  • 在目录中编辑和添加元数据


o 编辑标准元数据


o 添加自定义元数据

先决条件

对于本博文,您需要:



创建数据湖

AWS Lake Formation 控制台的左侧导航窗格中,选择注册并提取、**数据湖位置。选择一个 S3 存储桶以在您的数据湖中容纳几个独立的数据源。有关更多信息,请参阅什么是 AWS Lake Formation?


**

将数据添加到数据湖

现在,您已经将 S3 存储桶配置为 Lake Formation 的存储资源,您必须将数据添加到数据湖。您可以使用 AWS SDK、AWS CLI、S3 控制台或 Lake Formation 蓝图将数据添加到数据湖的 S3 存储桶存储资源中。


借助 Lake Formation,您可以发现并设置源数据的提取。添加用于加载或更新数据湖的工作流时,可以选择要添加的导入程序类型的蓝图或模板。Lake Formation 在 Lake Formation 控制台上为通用源数据类型提供了多个蓝图,旨在简化工作流的创建。工作流指向您的数据源和目标,并且指定了它们运行的频率。


对于本博文,请使用 AWS CLI 下载示例数据,然后将其上传到您的 S3 存储后端。其他导入方法(例如 Lake Formation 数据导入程序)不在本文讨论范围内。


AWS 开放数据注册表上提供的以下两个数据集中的示例:



在数据湖中制作两份 Amazon 客户评论数据集副本。您可以使用它们来模拟“生产”数据集和“测试”数据集,并了解在搜索元数据目录时如何定位其中一个或两个数据集。


为了演示 AWS 数据湖的灵活性,请将 CSV 和 Parquet 数据集都添加到您的数据湖。在这两种情况下,请为 S3 对象使用以下命名约定:


s3://BUCKET_NAME/DATABASE_NAME/TABLE_NAME/<data files>

将 Amazon 客户评论添加到数据湖

AWS 托管了一个注册表,可帮助用户共享和发现各种数据集。对于本博文,请将 Amazon 客户评论数据集的子集添加到数据湖。您无须复制完整的评论数据集,只需复制观看评论中较小的 226 MB 部分。您需要在数据湖中添加此数据的两个副本,以模拟单独的“生产”数据库和“测试”数据库。


  1. 如果尚未添加,请使用 IAM 用户访问密钥安装和配置 AWS CLI,该密钥包含从 S3 中读取并写入 Lake Formation S3 存储桶的权限。

  2. 将源数据复制到数据湖:


   # 使用您的存储桶名称进行替换:   YOUR_BUCKET=lf-metadata-demo
aws s3 cp \ s3://amazon-reviews-pds/parquet/product_category=Watches/ \ s3://$YOUR_BUCKET/amazon-reviews-prod/amazon-reviews/ --recursive
aws s3 cp \ s3://amazon-reviews-pds/parquet/product_category=Watches/ \ s3://$YOUR_BUCKET/amazon-reviews-test/amazon-reviews/ --recursive
复制代码


  1. 在 S3 控制台中,确认您的 S3 存储桶现在包含两个 Amazon 评论数据集。

  2. 检查文件夹的内容。数据集采用 Parquet 格式。

将纽约出租车行车历史记录添加到数据湖

按照您对 Amazon 客户评论数据集所执行的操作,将纽约出租车行车历史记录的一个小子集从 AWS 开放数据注册表复制到数据湖:


  1. 将源数据复制到数据湖:


   # 使用您的存储桶名称进行替换:   YOUR_BUCKET=lf-metadata-demo
aws s3 cp \ “s3://nyc-tlc/trip data/green_tripdata_2018-02.csv” \ “s3://$YOUR_BUCKET/ny-taxi/trip-data/green_tripdata_2018-02.csv”
复制代码


  1. 在 S3 控制台中,确认您的 S3 存储桶包含纽约出租车行程的 CSV 数据。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/discovering-metadata-with-aws-lake-formation-part-1/


2019-12-20 15:13887

评论

发布
暂无评论
发现更多内容

压缩上传的图片并返回图片路径

源字节1号

软件开发

转转风控「违禁物品识别」 背后的那些事儿

转转技术团队

人工智能’

StarRocks 成都见!企业如何打造极速统一的数据分析新范式,助力业务全方位升级

StarRocks

数据库

一加是oppo旗下的品牌吗?

Geek_8a195c

一文读懂Web3 结算协议 Zebec Protocol 的商业模式与发展前景

西柚子

会场及展位变更通知 | GOPS全球运维大会地址更改,龙智展位更换至#106

龙智—DevSecOps解决方案

gops GOPS全球运维大会

面试官问:如何优化高并发相关的业务,你能回答的上来吗?

CRMEB

前端程序员培训学习未来的薪资怎么样

小谷哥

新零售进阶|从“人-货-场”到“北极星指标”

Kyligence

新零售业态 对齐指标 管理目标

Seata-php 半年规划

SOFAStack

php 开源 分布式 框架 seata

龟兔赛跑:如何使用TortoiseSVN客户端和P4EXP

龙智—DevSecOps解决方案

git svn Subversion

有零有食携手阿里云&瓴羊共建企业数字化解决方案

瓴羊企业智能服务

HashMap为什么线程不安全?

Java面试那些事儿

Java jdk java程序员 java面试 hash map

数据构造那些事儿

转转技术团队

测试左移 测试数据构造 测试提效

今天4点,开发者关心的SysOM 操作系统运维系列直播又来了!| 第 42 期

OpenAnolis小助手

操作系统 系统运维 sig 龙蜥大讲堂 SysOM

学习大数据编程有前途吗

小谷哥

【LeetCode】层数最深叶子节点的和Java题解

Albert

LeetCode 8月月更

程序员常用的IDE工具,你了解哪些?

Speedoooo

小程序 ide 开发者工具 前端开发工具

数字人民币如何影响传统支付?支付厂商数字人民币应用案例征集

易观分析

金融 数字人民币 传统支付

转行大数据培训学习应该注意什么?

小谷哥

解放双手!根据代码自动生成时序图,这款IDEA插件真香

程序知音

Java 程序员 后端

什么是对象存储?3000字给你整明明白白!

wljslmz

OSS 对象存储 OBS 存储技术 8月月更

React Native框架与小程序混编的方案

Geek_99967b

小程序

云原生(十九) | Kubernetes篇之Kubernetes(k8s)网络

Lansonli

云原生 k8s 8月月更

ITIL4实用指南 | ITSM的未来属于敏捷

龙智—DevSecOps解决方案

ITSM ITSM解决方案

干净代码(Clean Code)实践如何帮助您留住开发人才

龙智—DevSecOps解决方案

代码质量 代码安全

前端编程培训学习好就业吗

小谷哥

浏览器、负载均衡 、进程内部层...那些你需要掌握的多级缓存

华为云开发者联盟

缓存 前端 浏览器

惊呆了!有了这份MySQL笔记手册,胜过看10本书

冉然学Java

MySQL 编程 程序员 分布式 构架

买家手册:企业在选择 SBOM 供应商时需要注意什么?

SEAL安全

DevSecOps 开源软件供应链 软件物料清单 SBOM 软件供应链安全

汉诺塔(递归+ 非递归版)

Five

算法题 8月月更

利用 AWS Lake Formation 探索元数据:第 1 部分(一)_行业深度_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章