东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

为共享和协作而优化的现代分析平台 –使用 Mode 和 Amazon Redshift 建设分析堆栈(二)

  • 2019-12-27
  • 本文字数:2664 字

    阅读完需:约 9 分钟

为共享和协作而优化的现代分析平台 –使用 Mode 和 Amazon Redshift建设分析堆栈(二)

三步构建数据科学平台

通过以下三个步骤来实现此数据科学基础设施:


  1. 建立数据仓库。

  2. 用来自公司的数据填充数据仓库。

  3. 为数据仓库套用数据科学解决方案。


这些步骤不需要进行大量投资以聘请工程团队和制作定制软件。


此堆栈支持灵活多样的自定义,以满足您公司的需求。本部分仅介绍如何设置将 Amazon Redshift 用于数据仓库、将 Fivetran 用于 ETL,以及将 Mode 用于数据科学。

第 1 步:设置 Amazon Redshift

有关设置 Amazon Redshift 仓库的信息,请参阅Amazon Redshift 入门。您需要一个 AWS 账户,设置过程不需要编写代码,只需几分钟即可完成。


完成初始设置后,大多数配置选项(包括集群的大小)都支持后续调整。因此,没有必要一开始就将一切设置精确。如果之后发现了其他更合适的配置,也可以返回并更改大部分的 Amazon Redshift 设置。

第 2 步:用数据填充 Amazon Redshift

数据仓库的质量取决于其中数据的质量。好在许多 ETL 工具能够帮助提升从您的公司和您使用的应用程序中连续流式传输数据的效率。应用程序数据库、Salesforce 和 Zendesk 等第三方应用程序,甚至 CSV 文件,所有这些都可以轻松地馈送到 Amazon Redshift 中,而无需任何额外工作。


FivetranAmazon Redshift 合作伙伴,它就是这样一种 ETL 工具(这是我们 Mode 公司 感到很满意的工具)。要将 Fivetran 连接到您的 Amazon Redshift 数据库,请首先配置您的数据库以允许 Fivetran 连接。Fivetran 支持多种连接选项,包括直接连接或使用 SSH 隧道进行连接。有关这些步骤的更多信息,请参阅连接选项


最后一步,为 Fivetran 创建 Amazon Redshift 用户。我们建议您使用 Master 主用户以外的用户。登录 Amazon Redshift 查询编辑器(或您选择的 SQL 客户端)并运行以下命令来创建用户:


CREATE USER fivetran PASSWORD;


GRANT CREATE ON DATABASETO fivetran;


配置 Amazon Redshift 之后:


  1. 创建一个新的 Fivetran 账户

  2. 选择我已有仓库,然后选择 Redshift

  3. 使用您的 Amazon Redshift 凭证(credential)填写表单,如下例中所示,然后选择保存



  1. 在将 Fivetran 连接到 Amazon Redshift 后,将其与您要提取到 Amazon Redshift 的数据源连接。现在,此过程更加高效。

  2. 在 Fivetran 中,选择连接器

  3. 选择添加连接器,然后选择要集成的数据源。虽然具体情况因数据源而异,但大多数都遵循相同的模式。

  4. 在 Amazon Redshift 中选择要向其写入数据的 schema,然后按照 Fivetran 自动引导您完成的授权流程进行操作。


以下是连接流的示例:



Salesforce 的连接流



Google Analytics 的连接流


通过使用类似的流,您还可以连接其他数据库(如 Amazon RDS Postgres 或 MySQL 数据库),或是直接上传 CSV。


设置这些连接后,数据会自动在您的数据源和 Amazon Redshift 之间同步。如果您想进行更多的控制,Fivarran 还允许您选择要同步的数据以及更新频率。


找不到您要查找的数据源? 其他 ETL 工具(包括 Stitch DataSegmentETLeap)可提供类似的服务,并且也同样易于设置。我们建议您在决定哪种工具适合您时参考本指南

第 3 步:将 Amazon Redshift 连接到 Mode

最后,通过将 Mode 连接到 Amazon Redshift,您可以让整个公司在协作分析环境中访问您的数据。


要连接 Mode,请配置您的安全组,以便 Mode 可以访问 Amazon Redshift。如果您将 Mode 直接连接到集群,请按照上面链接的安全组文档向用户授权访问以下 IP 地址:


54.68.30.98/32


54.68.45.3/32


54.164.204.122/32


54.172.100.146/32


如果您无法修改防火墙,Mode 还提供其他连接方式


完成这些步骤后,您只需在 Mode 的 数据源连接页面上输入凭证,如下例中所示:



建立连接后,选择组织中可以访问该连接的人员。然后,您可以立即查询数据并通过 Mode 编辑器为您的团队构建分析平台,如下例中所示:



除 SQL 环境和可视化构建器之外,Mode 还提供集成的 Python 和 R notebook 笔记本。在左侧导航栏中选择新建 notebook 笔记本,以启动一个新的 Python 或 R 实例,该实例将自动将您的查询结果作为 DataFrames 的输入。这使数据科学家能够无缝地创建分析并直接与公司内的每个人进行共享。最终,这种方法可让您构建最灵活的平台来满足您的分析需求。您的业务分析师和数据科学家现在可以在同一环境中工作。他们可以无缝协作,并随时访问相同的数据。


小结

使用这种全新架构,组织能够更快地处理更多数据。使用 Python 和 R 的数据团队不仅可以共享静态数据仪表盘和报告,还可以使用流行的预测和机器学习库,例如 ProphetTensorFlow。这些库可帮助团队找到他们通过其他方式无法找到的见解。这让团队能够定期提供更新,让每个人都了解最新情况,并回答推动关键决策的战略性和高价值的问题。此外,Mode 还会使企业内的每个人都可以访问这些分析结构。由于 Notebook 笔记本完全托管,因此数据科学家可以直接与相关方共享自己的工作,而无需 IT 部门进行任何额外工作。


通过将 Mode 与 Amazon Redshift 相结合,数据团队还消除了将数据加载到 Amazon Redshift 的数据集成、清理或 ETL 流程中的常见瓶颈。借助 Amazon Redshift Spectrum,他们可以直接从 Mode 控制面板或 Notebook 笔记本查询 Amazon S3 数据湖中的数据。此外,他们还可以将这些查询与已加载到数据仓库中的数据结合使用。

动手尝试

我们为您提供了一个演示环境,让您可以亲身感受上述这些技术栈。如果您认为它适用于您的案例,只需几分钟即可开始使用 Mode 和 Amazon Redshift。如果您尚未使用 Amazon Redshift,可以开启 2 个月的免费试用,并按照建议部署解决方案。通过将 Mode 连接到 Amazon Redshift,您可以立即开始探索数据或尝试使用其中的公开数据集


作者介绍:



Benn Stancil 是 Mode 的联合创始人兼首席分析师,Mode 是一家为数据科学家和分析师构建协作工具的公司。Benn 负责监督 Mode 的内部分析工作,同时也是数据科学社区的积极贡献者。此外,Benn 还是产品领导团队的成员,为 Mode 的产品发展方向提供战略性指导。



Ayush Jain 是 Amazon Web Services 的产品营销人员。他喜欢发展云服务,并帮助客户从云部署中获得更多价值。他在软件开发、产品管理和产品营销领域从事开发和数据服务工作,并且拥有多年经验。



Himanshu Raja 是 Amazon Redshift 的高级产品经理。Himanshu 喜欢解决数据难题,当数据与直觉相悖时,他爱不忍释。在业余时间,Himanshu 喜欢烹饪印度美食和观看动作电影。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/build-a-modern-analytics-stack-optimized-for-sharing-and-collaborating-with-mode-and-amazon-redshift/


2019-12-27 11:28480

评论

发布
暂无评论
发现更多内容

这份阿里P8大佬手写的 “Java核心面试精选” 疯传阿里内网

码农之家

Java 编程 程序员 互联网 面试

Google Analytics

曦语

数据分析

web简易视频聊天室+媒体流插入

anyRTC开发者

大前端 音视频 WebRTC RTC

Kafka源码阅读笔记(1)

InfoQ_Springup

kafka

数字货币自动交易机器人APP开发|数字货币自动交易机器人软件系统开发

系统开发

HTTPS双向认证

上海派拉基础研发

https HTTP ssl SSL 连接

我们真的可以使世界成为无密码的地方吗?

龙归科技

网络 安全性

13年Java开发经验精华总结!29大核心知识模块,带你直达架构师!

Java架构追梦

Java 阿里巴巴 架构 全栈知识点

合约量化交易机器人系统开发|合约量化交易机器人APP软件开发

量化合约交易机器人系统开发|量化合约交易机器人APP软件开发

系统开发

微擎的日志文件保存在哪里?如何查看。

微擎应用商城

【详解文件IO系列】讲讲 MQ 消息中间件 (Kafka,RocketMQ等)与 MMAP、PageCache 的故事

Linux服务器开发

网络编程 Linux服务器开发 底层实现原理 网络io C++后端开发

翻译:《实用的Python编程》09_01_Packages

codists

Python

Linux df 命令

一个大红包

linux命令 4月日更

量化合约机器人APP开发|量化合约机器人软件系统开发

系统开发

11 个非常实用的 Python 和 Shell 拿来就用脚本实例!

JackTian

Python 程序员 Shell linux运维 脚本语言

vue2的$refs在vue3组合式API中的替代方法

devpoint

Vue3 $refs vue2 this.$refs

Rust从0到1-枚举-match控制流

rust 枚举 match

从能耗大户“变身”智能绿色办公,只需一步到位!

IoT云工坊

物联网 API sdk 办公空间 智能转型

合约跟单交易系统开发量化策略

薇電13242772558

数字货币

MySQL性能监控与调优

Sakura

4月日更

合约量化机器人系统开发|合约量化机器人软件APP开发

系统开发

与同事组队,用 3s 把工作节点打通,建立信赖与协作关系。

叶小鍵

深入浅出带你掌握线程、多线程和线程池

华为云开发者联盟

Java 线程 多线程 线程池 操作系统

十大经典系统架构设计面试题

程序员石磊

架构 面试 架构设计

【LeetCode】删除排序链表中的重复元素Java题解

Albert

算法 LeetCode 4月日更

百度联合清华,全球首个十亿像素数据集来了!

百度大脑

人工智能 百度

1分钟get什么是训练数据

澳鹏Appen

人工智能 机器学习 大数据 数据集

5分钟教你学会GaussDB数据分布策略设计

华为云开发者联盟

数据库 分布式数据库 GaussDB GaussDB(for openGauss) 数据分布

浅谈BSS3.0产品“守成”之策上 • 架构提升篇

鲸品堂

架构 运维 性能

如何利用ipad随时随地开发代码

程序员石磊

ipad 编程 远程

为共享和协作而优化的现代分析平台 –使用 Mode 和 Amazon Redshift建设分析堆栈(二)_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章