QCon 演讲火热征集中,快来分享技术实践与洞见! 了解详情
写点什么

利用 AWS Lake Formation 探索元数据:第 1 部分(一)

  • 2019-12-20
  • 本文字数:1604 字

    阅读完需:约 5 分钟

利用 AWS Lake Formation 探索元数据:第 1 部分(一)

数据湖是一种用于创建单个存储库以存储和分析结构化和非结构化数据的日益流行的方法。AWS Lake Formation 使您可以轻松设置、保护和管理数据湖。本博文将引导您使用 Lake Formation 来创建和探索数据湖:


  • 创建数据湖


o 将数据添加到数据湖


o 创建目录数据库


o 将表从 Amazon S3 添加到目录数据库


  • 在目录中编辑和添加元数据


o 编辑标准元数据


o 添加自定义元数据

先决条件

对于本博文,您需要:



创建数据湖

AWS Lake Formation 控制台的左侧导航窗格中,选择注册并提取、**数据湖位置。选择一个 S3 存储桶以在您的数据湖中容纳几个独立的数据源。有关更多信息,请参阅什么是 AWS Lake Formation?


**

将数据添加到数据湖

现在,您已经将 S3 存储桶配置为 Lake Formation 的存储资源,您必须将数据添加到数据湖。您可以使用 AWS SDK、AWS CLI、S3 控制台或 Lake Formation 蓝图将数据添加到数据湖的 S3 存储桶存储资源中。


借助 Lake Formation,您可以发现并设置源数据的提取。添加用于加载或更新数据湖的工作流时,可以选择要添加的导入程序类型的蓝图或模板。Lake Formation 在 Lake Formation 控制台上为通用源数据类型提供了多个蓝图,旨在简化工作流的创建。工作流指向您的数据源和目标,并且指定了它们运行的频率。


对于本博文,请使用 AWS CLI 下载示例数据,然后将其上传到您的 S3 存储后端。其他导入方法(例如 Lake Formation 数据导入程序)不在本文讨论范围内。


AWS 开放数据注册表上提供的以下两个数据集中的示例:



在数据湖中制作两份 Amazon 客户评论数据集副本。您可以使用它们来模拟“生产”数据集和“测试”数据集,并了解在搜索元数据目录时如何定位其中一个或两个数据集。


为了演示 AWS 数据湖的灵活性,请将 CSV 和 Parquet 数据集都添加到您的数据湖。在这两种情况下,请为 S3 对象使用以下命名约定:


s3://BUCKET_NAME/DATABASE_NAME/TABLE_NAME/<data files>

将 Amazon 客户评论添加到数据湖

AWS 托管了一个注册表,可帮助用户共享和发现各种数据集。对于本博文,请将 Amazon 客户评论数据集的子集添加到数据湖。您无须复制完整的评论数据集,只需复制观看评论中较小的 226 MB 部分。您需要在数据湖中添加此数据的两个副本,以模拟单独的“生产”数据库和“测试”数据库。


  1. 如果尚未添加,请使用 IAM 用户访问密钥安装和配置 AWS CLI,该密钥包含从 S3 中读取并写入 Lake Formation S3 存储桶的权限。

  2. 将源数据复制到数据湖:


   # 使用您的存储桶名称进行替换:   YOUR_BUCKET=lf-metadata-demo
aws s3 cp \ s3://amazon-reviews-pds/parquet/product_category=Watches/ \ s3://$YOUR_BUCKET/amazon-reviews-prod/amazon-reviews/ --recursive
aws s3 cp \ s3://amazon-reviews-pds/parquet/product_category=Watches/ \ s3://$YOUR_BUCKET/amazon-reviews-test/amazon-reviews/ --recursive
复制代码


  1. 在 S3 控制台中,确认您的 S3 存储桶现在包含两个 Amazon 评论数据集。

  2. 检查文件夹的内容。数据集采用 Parquet 格式。

将纽约出租车行车历史记录添加到数据湖

按照您对 Amazon 客户评论数据集所执行的操作,将纽约出租车行车历史记录的一个小子集从 AWS 开放数据注册表复制到数据湖:


  1. 将源数据复制到数据湖:


   # 使用您的存储桶名称进行替换:   YOUR_BUCKET=lf-metadata-demo
aws s3 cp \ “s3://nyc-tlc/trip data/green_tripdata_2018-02.csv” \ “s3://$YOUR_BUCKET/ny-taxi/trip-data/green_tripdata_2018-02.csv”
复制代码


  1. 在 S3 控制台中,确认您的 S3 存储桶包含纽约出租车行程的 CSV 数据。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/discovering-metadata-with-aws-lake-formation-part-1/


2019-12-20 15:13815

评论

发布
暂无评论
发现更多内容

SpringBoot快速整合通用Mapper

Jeremy Lai

通用Mapper spring-boot

应用瓴羊Quick BI数据分析,实时掌控企业运营数据

对不起该用户已成仙‖

详解HashMap源码解析(上)

Jeremy Lai

HashMap底层原理

阿里云ECS后台CPU占用100%,top却找不到

Jeremy Lai

cpu 100% 阿里云;

小程序正式版报错600002 url not in domain list

Jeremy Lai

小程序

Java通过反射注解赋值

Jeremy Lai

解决问题 java注解

中国视频云进入“出海”时代,腾讯云音视频发布海外专门品牌及新产品

科技热闻

Web3时代到来,腾讯云助力产业提效和互联网创新

科技热闻

瓴羊Quick BI带给企业新发展,企业数字营销和运营变得格外简单

对不起该用户已成仙‖

Java递归实现评论多级回复

Jeremy Lai

递归 解决方案

五种方式实现 Java 单例模式

Jeremy Lai

设计模式 单例模式

深入理解Redis 数据结构—字典

Jeremy Lai

字典 redis 底层原理

Spring Cloud 整合 nacos 实现动态配置中心

Jeremy Lai

nacos 动态配置

字节一面:说说TCP的三次握手

Jeremy Lai

三次握手 TCP协议

后端程序员实现一个IP归属地的小程序

Jeremy Lai

腾讯发布数字政务核心产品体系,多方位助力政府数字化转型

科技热闻

详解HashMap源码解析(下)

Jeremy Lai

HashMap底层原理

模拟HashMap冲突

Jeremy Lai

hashmap 哈希冲突

详解ConCurrentHashMap源码(jdk1.8)

Jeremy Lai

ConcurrentHashMap 源码阅读

干货 | 五大关键点,帮助企业快速构建可落地的IT服务管理体系

嘉为蓝鲸

运维 嘉为蓝鲸 IT服务

腾讯云升级云端 IDE Cloud Studio,助力开发“化繁为简”

科技热闻

EMQ助力阿里云飞天洛神云网络构建新一代“亿级并发、百万级吞吐”NLB网络型负载均衡系统

EMQ映云科技

阿里云 物联网 IoT mqtt 12 月 PK 榜

Centos7安装Nginx教程,一步安装http和https

Jeremy Lai

nginx Linux安装

手把手教你用Java获取IP归属地

Jeremy Lai

IP地址

Seata 环境搭建

Jeremy Lai

分布式事务 seata

融云&艾瑞发布《政企数智办公平台行业研究报告》,解读数智化时代的办公新趋势

融云 RongCloud

即时通讯 办公 数智化

干货 | 企业如何快速采集分析日志?

嘉为蓝鲸

运维 嘉为蓝鲸

SpringBoot整合RabbitMQ实现六种工作模式

Jeremy Lai

spring-boot Rabbit MQ

MySQL更新锁表超时 Lock wait timeout exceeded

Jeremy Lai

事务隔离 Mysql死锁

详解MySQL隔离级别

Jeremy Lai

隔离级别

利用 AWS Lake Formation 探索元数据:第 1 部分(一)_行业深度_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章