NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

Amazon Redshift Spectrum 十二大最佳实践(一)

  • 2020-01-13
  • 本文字数:2685 字

    阅读完需:约 9 分钟

Amazon Redshift Spectrum 十二大最佳实践(一)

Amazon Redshift Spectrum 使您能够对存储在 Amazon S3 中的数据运行 Amazon Redshift SQL 查询。利用 Redshift Spectrum,您可以将 Amazon Redshift 的强大分析能力扩展到存储于 Amazon Redshift 本地的数据之外。Redshift Spectrum 提供的多种功能能够扩大您可能实施的战略。例如,它能够扩展 Amazon Redshift 可访问的数据大小,并能让您将计算与存储分离,从而提升混合工作负载用例的处理速度。Redshift Spectrum 还能够提高数据的互操作性,因为您可以从 Amazon Redshift 之外的多个计算平台访问同一 S3 对象。这些平台包括 Amazon AthenaAmazon EMR with Apache Spark、Amazon EMR with Apache Hive、Presto 及可访问 S3 的任何其他计算平台。因此,您无需通过繁琐、耗时的提取、转换、加载 (ETL) 流程,即可查询您的 Amazon S3 数据湖中的海量数据。您还可以连接外部 S3 表与集群本地磁盘上的表。Redshift Spectrum 对数以千计的节点进行复杂的查询优化和扩展处理,从而交付快速的性能。在本博文中,我们收集了 Redshift Spectrum 的 12 大重要最佳实践,并将这些实践分成不同的功能组。这些指南基于我们与 Amazon Redshift 客户的许多交互以及大量直接项目工作。在您开始使用之前,需要遵循以下步骤进行设置。有关开始使用 Redshift Spectrum 的先决条件及步骤的更多信息,请参阅 Amazon Redshift 文档中的Amazon Redshift Spectrum 入门

设置测试环境

要进行测试以验证本博文中概述的最佳实践,您可以使用任何数据集。Redshift Spectrum 支持多种常见数据格式:Text、Parquet、ORC、JSON、Avro 等等。您可以使用数据的原始格式进行查询,也可以根据数据访问模式、存储要求等等将数据转换为更高效的格式。例如,如果您经常访问列的子集,Parquet 和 ORC 等列格式能够仅读取所需列,从而大大降低 I/O。如何转换文件格式不在本博文的探讨范围之内,有关如何转换文件格式的更多信息,请参阅以下资源:


创建外部 schema

您可以遵循以下方法创建名为 s3_external_schema 的外部 schema:


SQL


create external schema s3_external_schema from data catalog database 'spectrumdb' iam_role 'arn:aws:iam::<AWS_ACCOUNT_ID>:role/aod-redshift-role'create external database if not exists;
复制代码


Amazon Redshift 集群和 Amazon S3 中的数据文件必须位于同一 AWS 区域。您可以在 Amazon Redshift、AWS Glue、Athena Data Catalog 或您自己的 Apache Hive 元存储中创建外部数据库。您的 Amazon Redshift 集群需要授权才能访问您的外部数据目录以及 Amazon S3 中的数据文件。您需要引用附加到您集群的 AWS Identity and Access Management (IAM) 角色(例如 aod-redshift-role)来提供授权。有关更多信息,请参阅 Amazon Redshift 文档中的为 Amazon Redshift 创建 IAM 角色

定义外部表

您可以使用 Parquet 文件定义分区的外部表,并使用如下逗号分隔值 (CSV) 文件定义其他非分区的外部表:


SQL


CREATE  external table s3_external_schema.LINEITEM_PART_PARQ (  L_ORDERKEY BIGINT, L_PARTKEY BIGINT, L_SUPPKEY BIGINT, L_LINENUMBER INT, L_QUANTITY DECIMAL(12,2), L_EXTENDEDPRICE DECIMAL(12,2), L_DISCOUNT DECIMAL(12,2), L_TAX DECIMAL(12,2), L_RETURNFLAG VARCHAR(128), L_LINESTATUS VARCHAR(128), L_COMMITDATE DATE, L_RECEIPTDATE DATE, L_SHIPINSTRUCT VARCHAR(128), L_SHIPMODE VARCHAR(128), L_COMMENT VARCHAR(128))partitioned by (L_SHIPDATE DATE)stored as PARQUETlocation 's3://<your-bucket>/<xyz>/lineitem_partition/';
CREATE external table s3_external_schema.LINEITEM_CSV ( L_ORDERKEY BIGINT, L_PARTKEY INT, L_SUPPKEY INT, L_LINENUMBER INT, L_QUANTITY DECIMAL(12,2), L_EXTENDEDPRICE DECIMAL(12,2), L_DISCOUNT DECIMAL(12,2), L_TAX DECIMAL(12,2), L_RETURNFLAG VARCHAR(128), L_LINESTATUS VARCHAR(128), L_SHIPDATE DATE , L_COMMITDATE DATE, L_RECEIPTDATE DATE, L_SHIPINSTRUCT VARCHAR(128), L_SHIPMODE VARCHAR(128), L_COMMENT VARCHAR(128))row format delimitedfields terminated by '|'stored as textfilelocation 's3://<your-bucket>/<xyz>/lineitem_csv/';
复制代码

查询数据

总的来说,Amazon Redshift 通过 Redshift Spectrum 访问存储在 Amazon S3 中的外部表。您可以使用用于其他 Amazon Redshift 表的相同的 SELECT 语法查询外部表。目前,所有外部表均为只读格式。


您必须在您的 SELECT 语句中引用外部表(方法是在表名称前面用 schema 名称做前缀),无需创建表并将其加载到 Amazon Redshift 中。


如希望使用 Redshift Spectrum 执行测试,可从以下两个查询着手。


查询 1


SQL


SELECT  l_returnflag,        l_linestatus,        sum(l_quantity) as sum_qty,        sum(l_extendedprice) as sum_base_price,        sum(l_extendedprice*(1-l_discount)) as sum_disc_price,        sum(l_extendedprice*(1-l_discount)*(1+l_tax)) as sum_charge,        avg(l_quantity) as avg_qty,        avg(l_extendedprice) as avg_priceFROM s3_external_schema.LINEITEM_PART_PARQWHERE l_shipdate BETWEEN '1998-12-01' AND '1998-12-31'GROUP BY l_returnflag, l_linestatusORDER BY l_returnflag, l_linestatus;
复制代码


该查询仅访问一个外部表,可用于突出显示 Redshift Spectrum 层提供的额外处理能力。


查询 2


SQL


SELECT   l_orderkey,         Sum(l_extendedprice * (1 - l_discount)) AS revenue,         o_orderdate,         o_shippriority FROM     customer, orders, s3_external_schema.lineitem_part_parq WHERE    c_mktsegment = 'BUILDING'          AND      c_custkey = o_custkey          AND      l_orderkey = o_orderkey          AND      o_orderdate < date '1995-03-15'          AND      l_shipdate >  date '1995-03-15' GROUP BY l_orderkey, o_orderdate, o_shippriority ORDER BY revenue DESC, o_orderdate LIMIT 20;
复制代码


该查询将三个表连接在一起:customerorders 表是本地 Amazon Redshift 表,而 LINEITEM_PART_PARQ 表是外部表。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/12-best-practices-for-amazon-redshift-spectrum/


2020-01-13 14:53560

评论

发布
暂无评论
发现更多内容

洛阳等级保护测评机构有哪些?在哪里?咨询电话多少?

行云管家

等保 等级保护 等保测评 洛阳

2024杭州国际连接器及线束设备展览会

吹吹晚风

GeaFlow图计算快速上手之K-hop算法

TuGraphAnalytics

大数据 流计算 图计算 图论

一文预览 | 8 月 16 日 NVIDIA 在 WAVE SUMMIT深度学习开发者大会 2023精彩亮点抢先看!

飞桨PaddlePaddle

人工智能 百度飞桨 WAVE SUMMIT

Programming abstractions in C阅读笔记p111-p113: boilerplate

codists

因为私域流量运营,App重新受重视?

FinFish

小程序生态 私域运营 小程序容器 私域流量运营 流量运营

小灯塔系列-中小企业数字化转型系列研究——知识管理测评报告

向量智库

百度百舸平台的大模型训练最佳实践

Baidu AICLOUD

容错机制 大模型训练 异构计算 CheckPoint

相约天津!全国智能汽车竞赛百度创意组总决赛通知

飞桨PaddlePaddle

百度 paddle 百度飞桨 飞桨国赛 全国大学生智能汽车竞赛

DTCC 2023即将启幕 明天见!

酷克数据HashData

本地工具是什么意思?本地工具与远程工具一样吗?

行云管家

IT运维 远程工具 本地工具

企业文件外发系统必备八大要素

镭速

文件外发系统

2024中国(深圳)国际VR/AR虚拟现实展览会

吹吹晚风

2024杭州国际工业装配及传输技术展览会

吹吹晚风

分布式事务的华丽进化 | 京东物流技术团队

京东科技开发者

分布式事务 数据库事务 企业号 8 月 PK 榜 柔性分布式事务

聊聊JDK1.0到JDK20的那些事儿 | 京东云技术团队

京东科技开发者

Java jdk jdk8 jdk17 企业号 8 月 PK 榜

极狐GitLab 上新:跳过无需备份项目,节约数 10 至 1000 倍时间与磁盘空间

极狐GitLab

DevOps gitlab 磁盘空间 数据备份恢复 备份时间

IIOT WiFi solution/IPQ9574 VS IPQ8074 support MU-MIMO-Beamforming-Advanced Wireless Technology

wifi6-yiyi

wifi6 WiFi7

GeaFlow任务能力增强:通过API定制流图计算逻辑

TuGraphAnalytics

分布式计算 java编程 API 图计算 tugraph

从零开始学极狐GitLab|03 Runner 裸机部署

极狐GitLab

DevOps gitlab cicd SaaS DevSecOps

突破大模型 | Alluxio助力AI大模型训练-成功案例(一)

Alluxio

机器学习 gpu 模型训练 大模型 AIGC

面试涨薪神奇操作,直接多给3k的JVM垃圾优化笔记

小小怪下士

Java 程序员 JVM 调优

aspera替代方案:探索这些安全且可靠的文件传输工具

镭速

aspera替代方案 文件传输工具

MT7915 with IPQ4019/IPQ4029 5G Radio Achieve 843 Mbps Throughput|DBDC Network Card

wallyslilly

IPQ4019 ipq4029 MT7915

【资料包】HDC.Together 2023精选Codelabs指南现已上线(内有活动)

HarmonyOS开发者

HarmonyOS

语音聊天源码平台开发小知识

山东布谷网络科技

极狐GitLab 企业级 CI/CD 规模化落地实践指南(一)

极狐GitLab

DevOps cicd runner template Component

19. 第三方库的管理和虚拟环境

茶桁

Python pip conda

规划性和可扩展性,助力企业全面预算管理的推进

智达方通

全面预算管理系统 智达方通EPM系统 财务规划与分析 多维模型

断点续传的未来发展趋势与前景展望

镭速

断点续传 文件传输软件

2023城博会|上海国际智慧工地展览会

AIOTE智博会

城博会 上海城博会

Amazon Redshift Spectrum 十二大最佳实践(一)_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章