最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

为共享和协作而优化的现代分析平台 –使用 Mode 和 Amazon Redshift 建设分析堆栈(二)

  • 2019-12-27
  • 本文字数:2664 字

    阅读完需:约 9 分钟

为共享和协作而优化的现代分析平台 –使用 Mode 和 Amazon Redshift建设分析堆栈(二)

三步构建数据科学平台

通过以下三个步骤来实现此数据科学基础设施:


  1. 建立数据仓库。

  2. 用来自公司的数据填充数据仓库。

  3. 为数据仓库套用数据科学解决方案。


这些步骤不需要进行大量投资以聘请工程团队和制作定制软件。


此堆栈支持灵活多样的自定义,以满足您公司的需求。本部分仅介绍如何设置将 Amazon Redshift 用于数据仓库、将 Fivetran 用于 ETL,以及将 Mode 用于数据科学。

第 1 步:设置 Amazon Redshift

有关设置 Amazon Redshift 仓库的信息,请参阅Amazon Redshift 入门。您需要一个 AWS 账户,设置过程不需要编写代码,只需几分钟即可完成。


完成初始设置后,大多数配置选项(包括集群的大小)都支持后续调整。因此,没有必要一开始就将一切设置精确。如果之后发现了其他更合适的配置,也可以返回并更改大部分的 Amazon Redshift 设置。

第 2 步:用数据填充 Amazon Redshift

数据仓库的质量取决于其中数据的质量。好在许多 ETL 工具能够帮助提升从您的公司和您使用的应用程序中连续流式传输数据的效率。应用程序数据库、Salesforce 和 Zendesk 等第三方应用程序,甚至 CSV 文件,所有这些都可以轻松地馈送到 Amazon Redshift 中,而无需任何额外工作。


FivetranAmazon Redshift 合作伙伴,它就是这样一种 ETL 工具(这是我们 Mode 公司 感到很满意的工具)。要将 Fivetran 连接到您的 Amazon Redshift 数据库,请首先配置您的数据库以允许 Fivetran 连接。Fivetran 支持多种连接选项,包括直接连接或使用 SSH 隧道进行连接。有关这些步骤的更多信息,请参阅连接选项


最后一步,为 Fivetran 创建 Amazon Redshift 用户。我们建议您使用 Master 主用户以外的用户。登录 Amazon Redshift 查询编辑器(或您选择的 SQL 客户端)并运行以下命令来创建用户:


CREATE USER fivetran PASSWORD;


GRANT CREATE ON DATABASETO fivetran;


配置 Amazon Redshift 之后:


  1. 创建一个新的 Fivetran 账户

  2. 选择我已有仓库,然后选择 Redshift

  3. 使用您的 Amazon Redshift 凭证(credential)填写表单,如下例中所示,然后选择保存



  1. 在将 Fivetran 连接到 Amazon Redshift 后,将其与您要提取到 Amazon Redshift 的数据源连接。现在,此过程更加高效。

  2. 在 Fivetran 中,选择连接器

  3. 选择添加连接器,然后选择要集成的数据源。虽然具体情况因数据源而异,但大多数都遵循相同的模式。

  4. 在 Amazon Redshift 中选择要向其写入数据的 schema,然后按照 Fivetran 自动引导您完成的授权流程进行操作。


以下是连接流的示例:



Salesforce 的连接流



Google Analytics 的连接流


通过使用类似的流,您还可以连接其他数据库(如 Amazon RDS Postgres 或 MySQL 数据库),或是直接上传 CSV。


设置这些连接后,数据会自动在您的数据源和 Amazon Redshift 之间同步。如果您想进行更多的控制,Fivarran 还允许您选择要同步的数据以及更新频率。


找不到您要查找的数据源? 其他 ETL 工具(包括 Stitch DataSegmentETLeap)可提供类似的服务,并且也同样易于设置。我们建议您在决定哪种工具适合您时参考本指南

第 3 步:将 Amazon Redshift 连接到 Mode

最后,通过将 Mode 连接到 Amazon Redshift,您可以让整个公司在协作分析环境中访问您的数据。


要连接 Mode,请配置您的安全组,以便 Mode 可以访问 Amazon Redshift。如果您将 Mode 直接连接到集群,请按照上面链接的安全组文档向用户授权访问以下 IP 地址:


54.68.30.98/32


54.68.45.3/32


54.164.204.122/32


54.172.100.146/32


如果您无法修改防火墙,Mode 还提供其他连接方式


完成这些步骤后,您只需在 Mode 的 数据源连接页面上输入凭证,如下例中所示:



建立连接后,选择组织中可以访问该连接的人员。然后,您可以立即查询数据并通过 Mode 编辑器为您的团队构建分析平台,如下例中所示:



除 SQL 环境和可视化构建器之外,Mode 还提供集成的 Python 和 R notebook 笔记本。在左侧导航栏中选择新建 notebook 笔记本,以启动一个新的 Python 或 R 实例,该实例将自动将您的查询结果作为 DataFrames 的输入。这使数据科学家能够无缝地创建分析并直接与公司内的每个人进行共享。最终,这种方法可让您构建最灵活的平台来满足您的分析需求。您的业务分析师和数据科学家现在可以在同一环境中工作。他们可以无缝协作,并随时访问相同的数据。


小结

使用这种全新架构,组织能够更快地处理更多数据。使用 Python 和 R 的数据团队不仅可以共享静态数据仪表盘和报告,还可以使用流行的预测和机器学习库,例如 ProphetTensorFlow。这些库可帮助团队找到他们通过其他方式无法找到的见解。这让团队能够定期提供更新,让每个人都了解最新情况,并回答推动关键决策的战略性和高价值的问题。此外,Mode 还会使企业内的每个人都可以访问这些分析结构。由于 Notebook 笔记本完全托管,因此数据科学家可以直接与相关方共享自己的工作,而无需 IT 部门进行任何额外工作。


通过将 Mode 与 Amazon Redshift 相结合,数据团队还消除了将数据加载到 Amazon Redshift 的数据集成、清理或 ETL 流程中的常见瓶颈。借助 Amazon Redshift Spectrum,他们可以直接从 Mode 控制面板或 Notebook 笔记本查询 Amazon S3 数据湖中的数据。此外,他们还可以将这些查询与已加载到数据仓库中的数据结合使用。

动手尝试

我们为您提供了一个演示环境,让您可以亲身感受上述这些技术栈。如果您认为它适用于您的案例,只需几分钟即可开始使用 Mode 和 Amazon Redshift。如果您尚未使用 Amazon Redshift,可以开启 2 个月的免费试用,并按照建议部署解决方案。通过将 Mode 连接到 Amazon Redshift,您可以立即开始探索数据或尝试使用其中的公开数据集


作者介绍:



Benn Stancil 是 Mode 的联合创始人兼首席分析师,Mode 是一家为数据科学家和分析师构建协作工具的公司。Benn 负责监督 Mode 的内部分析工作,同时也是数据科学社区的积极贡献者。此外,Benn 还是产品领导团队的成员,为 Mode 的产品发展方向提供战略性指导。



Ayush Jain 是 Amazon Web Services 的产品营销人员。他喜欢发展云服务,并帮助客户从云部署中获得更多价值。他在软件开发、产品管理和产品营销领域从事开发和数据服务工作,并且拥有多年经验。



Himanshu Raja 是 Amazon Redshift 的高级产品经理。Himanshu 喜欢解决数据难题,当数据与直觉相悖时,他爱不忍释。在业余时间,Himanshu 喜欢烹饪印度美食和观看动作电影。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/build-a-modern-analytics-stack-optimized-for-sharing-and-collaborating-with-mode-and-amazon-redshift/


2019-12-27 11:28483

评论

发布
暂无评论
发现更多内容

产品待办列表PBL与产品需求文档PRD的本质区别

ShineScrum捷行

Scrum PRD 产品待办列表 PBL 产品需求文档

数据结构学习笔记(一)

lxmoe

数据结构 学习笔记 11月月更

一份vue面试知识点梳理清单

bb_xiaxia1998

Vue

redhat运维-ftp服务故障

阿柠xn

Linux 运维 ftp 11月月更

荣耀开发者大会预约有礼

荣耀开发者服务平台

开发者 手机 开发者大会 荣耀 honor

一年前端面试打怪升级之路

loveX001

JavaScript

记一次京东前端面试被问到的题目

helloworld1024fd

JavaScript

React源码分析(三):useState,useReducer

goClient1992

React

React Context源码是怎么实现的呢

flyzz177

React

细说react源码中的合成事件

flyzz177

React

算法基础:离散化及模板详解

timerring

算法 11月月更 离散化

CSS 定位

默默的成长

CSS 前端 11月月更

面试官让你说说react状态管理?

beifeng1996

React

能否手写vue3响应式原理-面试进阶

helloworld1024fd

JavaScript

Java中的BigDecimal比较大于小于等于,四舍五入保留几位(setScale方法详解),加减乘除取余

共饮一杯无

Java BigDecimal 11月月更

Wallys/ DR9074-6E QCN9074 WIFI 6E 802.11AX 4X4 6GHz/ industrial M.2 card / DR9074-6E(PN02.7)

Cindy-wallys

m.2 QCN9074 WIFI 6e

CSS高级技巧

默默的成长

CSS 前端 11月月更

我的react面试题整理2(附答案)

beifeng1996

React

React源码分析(二)渲染机制

goClient1992

React

前端vue面试题

bb_xiaxia1998

Vue

腾讯前端高频手写面试题

helloworld1024fd

JavaScript

手撕常见JS面试题

helloworld1024fd

JavaScript

开发和学习时需要造一些kafka消息,于是写了段脚本实现,在这里记录备忘,后面会常用到

程序员欣宸

kafka 11月日更

Vue.$nextTick的原理是什么-vue面试进阶

bb_xiaxia1998

Vue

ReactDOM.render在react源码中执行之后发生了什么?

flyzz177

React

面试官:React怎么做性能优化

beifeng1996

React

我的react面试题笔记整理(附答案)

beifeng1996

React

数据预处理和特征工程-特征选择-Wrapper包装法

烧灯续昼2002

Python 机器学习 算法 sklearn 11月月更

React源码分析1-jsx转换及React.createElement

goClient1992

React

面试官:vue2和vue3的区别有哪些?

bb_xiaxia1998

Vue

Java注解与原理分析

Java 架构

为共享和协作而优化的现代分析平台 –使用 Mode 和 Amazon Redshift建设分析堆栈(二)_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章