写点什么

利用 AWS Lake Formation 探索元数据:第 1 部分(一)

  • 2019-12-20
  • 本文字数:1604 字

    阅读完需:约 5 分钟

利用 AWS Lake Formation 探索元数据:第 1 部分(一)

数据湖是一种用于创建单个存储库以存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。本博文将引导您使用 Lake Formation 来创建和探索数据湖:


  • 创建数据湖


o 将数据添加到数据湖


o 创建目录数据库


o 将表从 Amazon S3 添加到目录数据库


  • 在目录中编辑和添加元数据


o 编辑标准元数据


o 添加自定义元数据

先决条件

对于本博文,您需要:



创建数据湖

AWS Lake Formation 控制台的左侧导航窗格中,选择注册并提取、**数据湖位置。选择一个 S3 存储桶以在您的数据湖中容纳几个独立的数据源。有关更多信息,请参阅什么是 AWS Lake Formation?


**

将数据添加到数据湖

现在,您已经将 S3 存储桶配置为 Lake Formation 的存储资源,您必须将数据添加到数据湖。您可以使用 AWS SDK、AWS CLI、S3 控制台或 Lake Formation 蓝图将数据添加到数据湖的 S3 存储桶存储资源中。


借助 Lake Formation,您可以发现并设置源数据的提取。添加用于加载或更新数据湖的工作流时,可以选择要添加的导入程序类型的蓝图或模板。Lake Formation 在 Lake Formation 控制台上为通用源数据类型提供了多个蓝图,旨在简化工作流的创建。工作流指向您的数据源和目标,并且指定了它们运行的频率。


对于本博文,请使用 AWS CLI 下载示例数据,然后将其上传到您的 S3 存储后端。其他导入方法(例如 Lake Formation 数据导入程序)不在本文讨论范围内。


AWS 开放数据注册表上提供的以下两个数据集中的示例:



在数据湖中制作两份 Amazon 客户评论数据集副本。您可以使用它们来模拟“生产”数据集和“测试”数据集,并了解在搜索元数据目录时如何定位其中一个或两个数据集。


为了演示 AWS 数据湖的灵活性,请将 CSV 和 Parquet 数据集都添加到您的数据湖。在这两种情况下,请为 S3 对象使用以下命名约定:


s3://BUCKET_NAME/DATABASE_NAME/TABLE_NAME/<data files>

将 Amazon 客户评论添加到数据湖

AWS 托管了一个注册表,可帮助用户共享和发现各种数据集。对于本博文,请将 Amazon 客户评论数据集的子集添加到数据湖。您无须复制完整的评论数据集,只需复制观看评论中较小的 226 MB 部分。您需要在数据湖中添加此数据的两个副本,以模拟单独的“生产”数据库和“测试”数据库。


  1. 如果尚未添加,请使用 IAM 用户访问密钥安装和配置 AWS CLI,该密钥包含从 S3 中读取并写入 Lake Formation S3 存储桶的权限。

  2. 将源数据复制到数据湖:


   # 使用您的存储桶名称进行替换:   YOUR_BUCKET=lf-metadata-demo
aws s3 cp \ s3://amazon-reviews-pds/parquet/product_category=Watches/ \ s3://$YOUR_BUCKET/amazon-reviews-prod/amazon-reviews/ --recursive
aws s3 cp \ s3://amazon-reviews-pds/parquet/product_category=Watches/ \ s3://$YOUR_BUCKET/amazon-reviews-test/amazon-reviews/ --recursive
复制代码


  1. 在 S3 控制台中,确认您的 S3 存储桶现在包含两个 Amazon 评论数据集。

  2. 检查文件夹的内容。数据集采用 Parquet 格式。

将纽约出租车行车历史记录添加到数据湖

按照您对 Amazon 客户评论数据集所执行的操作,将纽约出租车行车历史记录的一个小子集从 AWS 开放数据注册表复制到数据湖:


  1. 将源数据复制到数据湖:


   # 使用您的存储桶名称进行替换:   YOUR_BUCKET=lf-metadata-demo
aws s3 cp \ “s3://nyc-tlc/trip data/green_tripdata_2018-02.csv” \ “s3://$YOUR_BUCKET/ny-taxi/trip-data/green_tripdata_2018-02.csv”
复制代码


  1. 在 S3 控制台中,确认您的 S3 存储桶包含纽约出租车行程的 CSV 数据。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/discovering-metadata-with-aws-lake-formation-part-1/


2019-12-20 15:13958

评论

发布
暂无评论
发现更多内容

福昕软件与神州数码达成中国区分销合作

联营汇聚

druid源码学习四-多线程之锁探究

Nick

Apache Druid 锁机制 多线程安全

[数据分析实践]-音频分析-BirdCLE-2

浩波的笔记

人工智能 机器学习 数据分析

青藤参与编写的《数据安全法》实施参考(第一版)发布

青藤云安全

全新升级!阿里巴巴2022最新Spring源码全家桶全彩笔记开源

Java全栈架构师

spring 源码 程序员 面试 程序人生

企评家 | 每日互动股份有限公司成长性评价简介

企评家

最「难搞」的英伟达也开源了,苹果会是下一个吗?

腾源会

开源 英伟达 苹果 腾源会

从相亲来看Flutter 的 StatefulWidget 和 StatelessWidget

岛上码农

flutter ios开发 安卓开发 跨平台应用 5月月更

西门子PLC设备如何接入AIRIOT物联网低代码平台 ?

AIRIOT

物联网, PLC 低代码开发 低代码平台

企评家,为沪深主板企业成长性评价

企评家

干货| 四种渲染到底是啥?终于有人讲明白了!(上)

Orillusion

开源 WebGL 元宇宙 Metaverse webgpu

Collections和Objects的使用注意

zarmnosaj

5月月更

Maven 项目

Emperor_LawD

maven 5月月更

Redis「2」缓存一致性与异常处理

Samson

Redis 核心技术与实战 学习成长 5月月更

如何设计产品帮助中心?从这几点出发

小炮

druid 源码阅读(四)返回一个连接

爱晒太阳的大白

5月月更

面向CV编程:COPY了别人文章中的代码,想让代码能像作者一样跑通,应该注意什么呢?怎样才能让代码愉快地跑起来呢

迷彩

读书笔记 高效工作 程序员 个人思考 5月月更

周日直播,龙蜥社区等8位专家在线报告 | 2022大学生操作系统大赛培训会

OpenAnolis小助手

操作系统 人才培养 大学生 龙蜥社区

覆盖 70% 核心业务,ShardingSphere 如何成为喜马拉雅架构演进的催化剂

SphereEx

Apache 数据库 开源 ShardingSphere SphereEx

Node.js可以用来做什么事?

小学僧

node.js 前端 5月月更

不用PyScript,网页端运行的Python编辑器

Alexads

Python 代码编辑器

【愚公系列】2022年05月 二十三种设计模式(十三)-职责链模式(Chain of Responsibility Pattern)

愚公搬代码

5月月更

技术创新!青藤威胁检测论文入选国家中文核心期刊

青藤云安全

论文 威胁检测

做不好资产清点的网络安全防护都是耍流氓!

青藤云安全

即时通讯安全篇(九):为什么要用HTTPS?深入浅出,探密短连接的安全性

JackJiang

https 即时通讯 ssl im开发

引领创新!青藤入选“网信自主创新尖锋企业”

青藤云安全

基于STM32+华为云IOT设计智能称重系统

华为云开发者联盟

物联网 传感器 stm32 华为云IoT平台 智能称重系统

青藤正式加入微软MAPP计划

青藤云安全

如何使用Python实现图像融合及加法运算

华为云开发者联盟

Python OpenCV 图像处理 图像融合 加法运算

一文简述:容灾等级&保护程度

穿过生命散发芬芳

容灾 5月月更

使用声网 SDK 为Android APP添加视频直播

声网

android 教程 视频直播

利用 AWS Lake Formation 探索元数据:第 1 部分(一)_行业深度_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章