写点什么

利用 AWS Lake Formation 探索元数据:第 1 部分(一)

  • 2019-12-20
  • 本文字数:1604 字

    阅读完需:约 5 分钟

利用 AWS Lake Formation 探索元数据:第 1 部分(一)

数据湖是一种用于创建单个存储库以存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。本博文将引导您使用 Lake Formation 来创建和探索数据湖:


  • 创建数据湖


o 将数据添加到数据湖


o 创建目录数据库


o 将表从 Amazon S3 添加到目录数据库


  • 在目录中编辑和添加元数据


o 编辑标准元数据


o 添加自定义元数据

先决条件

对于本博文,您需要:



创建数据湖

AWS Lake Formation 控制台的左侧导航窗格中,选择注册并提取、**数据湖位置。选择一个 S3 存储桶以在您的数据湖中容纳几个独立的数据源。有关更多信息,请参阅什么是 AWS Lake Formation?


**

将数据添加到数据湖

现在,您已经将 S3 存储桶配置为 Lake Formation 的存储资源,您必须将数据添加到数据湖。您可以使用 AWS SDK、AWS CLI、S3 控制台或 Lake Formation 蓝图将数据添加到数据湖的 S3 存储桶存储资源中。


借助 Lake Formation,您可以发现并设置源数据的提取。添加用于加载或更新数据湖的工作流时,可以选择要添加的导入程序类型的蓝图或模板。Lake Formation 在 Lake Formation 控制台上为通用源数据类型提供了多个蓝图,旨在简化工作流的创建。工作流指向您的数据源和目标,并且指定了它们运行的频率。


对于本博文,请使用 AWS CLI 下载示例数据,然后将其上传到您的 S3 存储后端。其他导入方法(例如 Lake Formation 数据导入程序)不在本文讨论范围内。


AWS 开放数据注册表上提供的以下两个数据集中的示例:



在数据湖中制作两份 Amazon 客户评论数据集副本。您可以使用它们来模拟“生产”数据集和“测试”数据集,并了解在搜索元数据目录时如何定位其中一个或两个数据集。


为了演示 AWS 数据湖的灵活性,请将 CSV 和 Parquet 数据集都添加到您的数据湖。在这两种情况下,请为 S3 对象使用以下命名约定:


s3://BUCKET_NAME/DATABASE_NAME/TABLE_NAME/<data files>

将 Amazon 客户评论添加到数据湖

AWS 托管了一个注册表,可帮助用户共享和发现各种数据集。对于本博文,请将 Amazon 客户评论数据集的子集添加到数据湖。您无须复制完整的评论数据集,只需复制观看评论中较小的 226 MB 部分。您需要在数据湖中添加此数据的两个副本,以模拟单独的“生产”数据库和“测试”数据库。


  1. 如果尚未添加,请使用 IAM 用户访问密钥安装和配置 AWS CLI,该密钥包含从 S3 中读取并写入 Lake Formation S3 存储桶的权限。

  2. 将源数据复制到数据湖:


   # 使用您的存储桶名称进行替换:   YOUR_BUCKET=lf-metadata-demo
aws s3 cp \ s3://amazon-reviews-pds/parquet/product_category=Watches/ \ s3://$YOUR_BUCKET/amazon-reviews-prod/amazon-reviews/ --recursive
aws s3 cp \ s3://amazon-reviews-pds/parquet/product_category=Watches/ \ s3://$YOUR_BUCKET/amazon-reviews-test/amazon-reviews/ --recursive
复制代码


  1. 在 S3 控制台中,确认您的 S3 存储桶现在包含两个 Amazon 评论数据集。

  2. 检查文件夹的内容。数据集采用 Parquet 格式。

将纽约出租车行车历史记录添加到数据湖

按照您对 Amazon 客户评论数据集所执行的操作,将纽约出租车行车历史记录的一个小子集从 AWS 开放数据注册表复制到数据湖:


  1. 将源数据复制到数据湖:


   # 使用您的存储桶名称进行替换:   YOUR_BUCKET=lf-metadata-demo
aws s3 cp \ “s3://nyc-tlc/trip data/green_tripdata_2018-02.csv” \ “s3://$YOUR_BUCKET/ny-taxi/trip-data/green_tripdata_2018-02.csv”
复制代码


  1. 在 S3 控制台中,确认您的 S3 存储桶包含纽约出租车行程的 CSV 数据。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/discovering-metadata-with-aws-lake-formation-part-1/


2019-12-20 15:13974

评论

发布
暂无评论
发现更多内容

当AI开始改造“文房四宝”:腾讯教育的脑洞与逻辑

脑极体

“金三银四”面试别慌!最新阿里P8内部Java面试涨薪秘籍!全网最新已开源

Java架构之路

Java 程序员 架构 面试 编程语言

终于讲清楚了:深入理解Java 应用程序中 final 关键字的各种使用场景

老王说编程

Java final

【得物技术】会议室巡检系统(哮天犬)部署分享

得物技术

分享 部署 巡检 得物技术 会议室

程序员之禅(三)

每天读本书

每天读本书

自动炒币机器人系统开发|自动炒币机器人APP软件开发

系统开发

从JVM底层原理分析数值交换那些事

Java 架构 JVM

作业 - 第五周

eva

舒畅,阿里大牛终于把困扰我多年的「Spring全家桶」讲明白了!十年IT老兵亲述Spring实战经验

Java架构之路

Java 程序员 架构 面试 编程语言

小树量化交易系统开发|小树炒币机器人软件APP开发

系统开发

火币量化交易系统开发|火币炒币机器人软件APP开发

系统开发

瓦力量化交易系统开发|瓦力炒币机器人软件APP开发

系统开发

【邀请有礼】全球视频云创新挑战赛邀请有礼:参与 100% 获得 “壕” 礼,更有机会获得 JBL 音箱、Cherry 机械键盘

阿里云CloudImagine

阿里云 音视频 比赛

当开工季遇上采购季,云通信主播教你怎么省心又省钱

阿里云Edge Plus

云通信

重磅!Flutter中网络图片加载和缓存源码分析,BAT大厂面试总结

欢喜学安卓

android 程序员 面试 移动开发

微服务指南

码语者

DevOps

Nginx 模块系统:前篇

soulteary

nginx 动态模块

用户画像实践

Jackchang234987

想看新指标?教你轻松写prober插件

滴滴云

运维 滴滴夜莺 Obsuite prober插件

Linkerd or Istio?哪个Service Mesh框架更适合你?

xcbeyond

Service Mesh istio 技术选型 Linkerd 3月日更

大赛报名|首次聚焦口罩场景!第三届 106 点关键点定位大赛开启

京东科技开发者

人工智能 深度学习 计算机视觉

华山版强势来袭!阿里巴巴Java性能优化2021年3月版(面试必备)

Java架构追梦

Java 阿里巴巴 架构 面试 性能优化

CentOS安装Docker运行环境

wjchenge

Docker Centos 7

腾讯T2大牛手把手教你!2021新一波程序员跳槽季,算法太TM重要了

欢喜学安卓

android 程序员 面试 移动开发

基于 Wasm 和 ORAS 简化扩展服务网格功能

阿里巴巴云原生

Docker 容器 微服务 云原生 k8s

DataPipeline通过华为鲲鹏兼容性认证,以自主科技创新推动中国信息产业进步

DataPipeline数见科技

大数据 数据融合

2021“金三银四”刷爆朋友圈的“Java核心面试知识手册”这波Offer稳了

Java架构之路

Java 程序员 架构 面试 编程语言

使用 Puppet 进行配置管理

码语者

DevOps 配置管理

CodeHub#4 启动报名| 荷小鱼:K12 在线教育应用的开发实践

蚂蚁集团移动开发平台 mPaaS

在线教育 mPaaS codehub 离线包

萌新不看会后悔的C++基本类型总结(一)

花狗Fdog

如何解决移动直播下的耳返延迟问题

融云 RongCloud

音视频 移动直播

利用 AWS Lake Formation 探索元数据:第 1 部分(一)_行业深度_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章