写点什么

AWS Data Exchange

2019 年 11 月 21 日

AWS Data Exchange

我们生活在一个数据驱动的数据密集世界! 不论什么组织都会收集、存储、处理、分析数据,并在决策过程中利用数据来改善决策。AWS Cloud 非常适合所有这些活动。它提供海量的存储空间,可以使用任何可能规模的计算能力,以及许多不同类型的分析工具


除了在内部生成和使用数据之外,许多组织在生成数据后,还会与公众或同行共享数据集。早在 2008 年,我们就在这上面迈出了脚步,推出了 AWS 公开数据集(呼唤研究人员、分析师和开发人员)。这个项目后来发展成为 Registry of Open Data on AWS新内容 – Registry of Open Data on AWS (RODA)),目前包含 118 个有趣的数据集,并且数量在不断增加。


全新的 AWS Data Exchange


现在,我们又前进了一步,推出 AWS Data ExchangeAWS Marketplace 新增的这项服务包含来自 80 多个数据提供商的一千多种可许可数据产品。其中包括各类免费和付费产品,如金融服务、医疗保健/生命科学、地理空间、天气和绘图等类别的产品。


如果您是数据订阅者,则可以在这里快速找到、购买并开始使用这些产品。如果您是数据提供商,则可以轻松打包、许可和交付自己的产品。让我们分别从这两者的角度来看一下 Data Exchange,然后回顾一些重要的细节。



在探讨之前,我们先定义一些重要的术语:


数据提供商 — 拥有一个或多个要共享的数据产品的组织。


数据订阅者 — 想要使用数据提供商提供的数据产品的 AWS 客户。


数据产品 — 数据集的集合。


数据集 — 存储按修订版本分组的相关联数据资产的容器。


修订版本 — 某个时间点用于一个或多个数据资产的容器。


数据资产 — 以任何所需格式存在的实际数据。


面向数据订阅者的 AWS Data Exchange


作为数据订阅者,我单击查看产品目录,然后从 AWS Data Exchange 控制台发现数据部分开始:



可以从众多供应商处获得产品:



我可以输入搜索关键字,单击搜索,然后缩小搜索范围,以仅显示定价为免费的产品:



我还可以搜索来自特定供应商、匹配某个搜索关键字且定价为免费的产品:



第二个看起来不错且相关,所以我单击 5 Digit Zip Code Boundaries US (TRIAL) 以了解更多信息:



我想可以在我的应用程序中使用它,并想尝试一下,所以我单击继续以订阅。我查看了详细信息,阅读了数据订阅协议,然后单击订阅



订阅在几分钟内激活,我可以在我的订阅列表中看到它:



然后,我可以将其下载到我的 S3 存储桶中,并进行查看。我单击进入数据集,然后找到修订版本



单击修订版本,然后可以看到要查找的资产(包含实际数据):



我选择了所需的资产,然后单击导出到 Amazon S3。然后,我选择一个存储桶,然后单击导出以继续:



这将创建一个将数据复制到我的存储桶的作业(此处需要额外的 IAM 权限;有关更多信息,请阅读访问控制文档):



作业会异步运行,并将数据从 Data Exchange 复制到存储桶。正如我刚刚向您展示的那样,可以以交互方式创建作业,也可以以编程方式创建。数据放入存储桶后,我可以以任何想要的方式进行访问和处理。例如,我可以使用 AWS Lambda 函数来解析 ZIP 文件,并使用结果来更新 Amazon DynamoDB 表。或者,我可以运行 AWS Glue 爬网程序,以将数据放入我的 Glue 目录中,运行 Amazon Athena 查询,并在 Amazon QuickSight 控制面板中可视化结果。


订阅期限为 1-36 个月,并且可以使用自动续订选项;订阅费用会每月向我的 AWS 账户收取。


面向数据提供商的 AWS Data Exchange


现在,我变成了数据提供商,并将向您展示发布过程的基础知识(用户指南包含更详细的分步讲解)。为了能够许可数据,我需要同意条款和条件,并且我的应用程序必须经过 AWS 的批准。


申请并获得批准后,我就可以创建第一个数据集了。在导航中单击数据集,然后创建数据集



我描述了我的数据集,并可以选择对其进行标记,然后单击创建



接下来,我单击创建修订版本,以创建数据集的第一个修订版本:



我添加了评论,并且在单击创建之前可以选择标记修订版本:



我可以从现有的 S3 位置复制数据,也可以从桌面上传数据:



我选择第二个选项,然后选择我的文件,导入作业完成后,它会在导入的资产中显示。我检查了所有内容,然后单击完成



我的数据集马上就准备好了,现在我可以使用它来创建一个或多个产品:



控制台概述了主要步骤:



我可以为我的产品设置公开定价信息:



AWS Data Exchange 让我为单个客户创建私人定价计划,它还允许我的现有客户通过创建“使用自己的许可证”订阅,将他们现有(AWS Data Exchange 之前)的许可证与我的产品一起使用。


我可以使用 AWS Data Exchange 提供的数据订阅协议 (DSA),将其用作模板,或者可以上传现有的协议:



我可以使用 AWS Data Exchange API 创建、更新、列出和管理数据集及其修订版本。函数包括 CreateDataSetUpdataSetListDataSetsCreateRevisionUpdateAssetCreateJob


注意事项


关于 Data Exchange,您应该了解下面这些信息:


订阅验证 — 为验证我的订阅,数据提供商可能会要求我提供额外信息。如果是这种情况,控制台将要求我提供信息,提供商将在 45 天内审核并批准或拒绝:



这是提供商看到的内容:



修订版本和通知 — 数据提供商可以随时修改其数据集。每次订阅的产品更新时,数据消费者都会收到 CloudWatch 事件。这可用于启动检索资产最新修订版本的作业。如果您正在实施这种类型的系统并且需要一些测试事件,请查找并订阅 Heartbeat 产品:



数据类别和类型 — AWS Data Exchange 上不允许使用某些类别的数据。例如,您的数据产品不能包含可用于识别任何人的信息,除非该信息已经合法地向公众公开。有关允许使用哪些类别的数据的详细指南,请参阅发布指南


数据提供商位置 — 数据提供商必须是位于美国或欧盟成员国的有效法律实体。


现已推出


AWS Data Exchange 现已推出,您现在就可以开始使用。如果您拥有一些有趣的数据并想要发布,请从这里开始。如果您是开发人员,请浏览产品目录并查找可为您的产品增加价值的数据。


作者介绍:


!



### [](https://amazonaws-china.com/cn/blogs/china/tag/jeff-barr/)
AWS 首席布道师; 2004年开始发布博客,此后便笔耕不辍。
复制代码


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/aws-data-exchange-find-subscribe-to-and-use-data-products/


2019 年 11 月 21 日 08:00162

欲了解 AWS 的更多信息,请访问【AWS 技术专区】

评论

发布
暂无评论
发现更多内容

敏捷之道:各角色如何从DevOps中受益?

华为云开发者社区

产品 DevOps 敏捷

PanDownload复活了!60MB/s!附下载地址

程序员生活志

PanDownload 网盘 下载器

创新者谈

善宝橘

创新

建议将区块链产业纳入国家“十四五规划”

CECBC区块链专委会

区块链 新基建

手写SpringIOC

彭阿三

spring源码 sping springioc

轻言业务架构图

异想的芦苇

架构 企业架构 架构设计 架构设计原则 业务架构

手把手教你锤面试官 04——假装精通redis

慵懒的土拨鼠

MySQL-技术专题-Join语法以及性能优化

李浩宇/Alex

MySQL-技术专题-实战技巧

李浩宇/Alex

转型敏捷123

技术管理Jo

技术解码 | 玩转视频播放,自适应码流技术

腾讯云视频云

音视频 转码

SpringBoot-技术专题-@Async异步注解

李浩宇/Alex

万万没想到!ModelArts与AppCube组CP了

华为云开发者社区

AI 技术 华为云

数字货币交易所系统开发源码,交易平台搭建

WX13823153201

数字货币交易所系统开发

MySQL-技术专题-SQL性能分析

李浩宇/Alex

架构师训练营第一期 - 第四周课后 - 作业二

极客大学架构师训练营

七千字的线性回归模型指南,建议收藏!

计算机与AI

数据挖掘 学习 线性回归

技术革新的脉络及趋势

异想的芦苇

技术 进步

高难度对话读书笔记——目的篇

wo是一棵草

论软件工程师的自我修养:角色、重构与质量

华为云开发者社区

软件 开发 工程师

SpringBoot 实战:如何优雅的处理异常

看山

springboot 实战 优雅响应

Redis-技术专题-Jedis实战入门

李浩宇/Alex

区块链赋能医疗产业报告

CECBC区块链专委会

区块链 大数据 医疗

Java 客户端操作 FastDFS 实现文件上传下载替换删除

哈喽沃德先生

Java 文件系统 分布式文件存储 fastdfs 文件服务器

第3周作业提交

饭桶

第3周学习总结

饭桶

我就不服了,看完这篇文章,5大常见消息队列开发你还学不会

小Q

Java 编程 程序员 开发 消息队列

晨间日记的奇迹

熊斌

读书笔记

Redis-技术专题-数据结构

李浩宇/Alex

“三段三域法”应用架构模型

异想的芦苇

架构 架构设计 技术架构

深圳派发数字人民币红包!个人数字人民币钱包即将亮相

CECBC区块链专委会

数字货币 数字人民币

演讲经验交流会|ArchSummit 上海站

演讲经验交流会|ArchSummit 上海站

AWS Data Exchange-InfoQ