亚马逊面向托管和大数据处理的大动作

阅读数:1118 2013 年 6 月 13 日

话题:AWSDevOps大数据架构AI

Amazon Web Services(AWS)团队发布了亚马逊 Redshift的有限预览版,这个基于云的数据仓库,在成本和功能上正准备对行业造成冲击。另外,AWS 还透漏了两种新型的大规模计算实例,以及一个叫做 Data Pipeline 的数据集成工具。总的来说,这些服务开始切入企业关心的问题,即在公有云上收集,存储,分析他们的业务数据是否是划算而有效率的。

据拉斯维加斯举行的首个年度 AWS re:Invent 大会上的介绍,Redshift 被 AWS 首席技术官 Werner Vogels 描述为“云上的一个快速、强大、完全受管理的、PB 规模的数据仓库服务。”Vogels 讲解了 Redshift 是如何被构建来快速分析大数据集的。

亚马逊 Redshift 使用了大量的创新,以使得用户可以快速分析从几百 GB 到若干 PB 甚至更大规模的数据集。不同于基于行的传统关系数据库将每一行数据都顺序存储在磁盘上,亚马逊 Redshift 采用了顺序存储每一列。这意味着 Redshift 比基于行的数据库消耗更少的 IO,因为在执行给定的查询时它不必读取那些不需要的列。另外,由于相似的数据被顺序存储,亚马逊 Redshift 可以有效的压缩数据,从而进一步降低返回结果所需要执行的 IO 数量。

亚马逊对 Redshift 的架构和底层平台进行了优化以便为数据仓库负载提供较高的性能。Redshift 具有大规模的并行处理架构,以便于它能够将查询分散到多个低成本节点上进行并行处理。节点本身也针对数据仓库负载进行了特别设计。它们在多个主轴上包含大量本地连接存储,并且被连接在至少是超配额(oversubcribed)的 10 GigE 网络中。

AWS 团队博客描述了 Redshift 令人印象深刻的恢复能力

亚马逊 Redshift 被设计为即使面对磁盘或节点故障也能保证数据完整性。第一道防线由两个数据备份组成,分布在你的数据仓库集群中超过 24 个不同节点的驱动器上。亚马逊 Redshift 监控这些驱动器的状况,如果驱动器故障会切换到备份数据上。如果可能,它还会把数据移动到正常的驱动器上,如果必要甚至可以移动到新的节点上。虽然在这个重新复制的过程中,你会观察到些许的性能下降,但是这一切都无需用户参与。

Redshift 遵循标准 AWS“用多少付多少”的定价模型,并且亚马逊声称用户将会发现通过使用该服务可以节省大量的费用。基于亚马逊的调查,典型的 on-premises 数据仓库每 TB 每年需要花费 19,000 到 25,000 美元用于许可证和维护,而 Redshift 服务每年每 TB 花费却低于 1000 美元。根据Barb Darrow at GigaOm这篇文章所述,这个服务将“从 Oracle,IBM 和 Teradata 蚕食业务(Redshift,能做到吗?)”,并且 AWS 尚未完成“构建高级服务来和老牌 IT 提供商甚至部分亚马逊自己的软件伙伴来进行竞争”。

尽管像 AWS 这样的云供应商有效地提供了无限存储,但是把数据迁移到云上仍然存在挑战,需要用 Redshift 这样的分析工具巩固加强。当有不断涌现的解决方案来解决前者之际,新的 Data Pipeline 产品的出现正是为了解决后者。 Data Pipeline 产品提供了图形化的可拖拽的用户界面,用于进行数据源之间的建模。AWS 团队博客解释了 Pipeline由数据源、目的地、处理步骤和执行调度构成。Pipeline 数据源可以是 AWS 数据仓库,比如 RDS、DynamoDB 和 S3,或者是运行在 EC2 虚拟机甚至 on-premises 数据中心的数据库。Data Pipeline 尚未发布,目前只针对选定的 Beta 测试伙伴开放。

高效地传输大数据需要巨大的带宽。在GigaOm的一篇采访中,AWS 首席数据科学家 Matt Wood 解释了亚马逊和他的伙伴们正在如何积极地解决这个问题。

数据集越大,上传时间越长。

Wood 说 AWS 正在努力减轻这些问题。比如,像合作伙伴 Aspera甚至是一些开源项目让用户可以在网络上高速传送大文件(wood 说他看到过持续 700Mbs 的速度)。这也是为什么 AWS 减免了入站数据的传输费用,同时开放了大文件并行上传,以及使用数据中心运营商提供的到 AWS 设施的专用连接来创建直连程序

如果数据集对这些方法来说仍然太大,客户可以把他们的硬盘发送给 AWS。Wood 说“我们绝对接受硬盘”。

作为“大”这个主题的延续,AWS 还透露了 EC2 虚拟机的两个最新的实例类型。“Cluster High Memory”实例类型拥有 240GB 的大内存和一对 120GB 的固态硬盘。相对于目前 EC2 提供的虚拟机最大 60.5GB 的内存来说是一个巨大的增长。另一个实例类型被称为 “High Storage”,拥有 117GB 的内存以及 48TB 的存储。这两个实例类型目前还不可用,但是它们的直接目标都是那些在云中进行 Map Reduce 和大数据处理的客户。

感谢赵震一对本文的审校。

查看英文原文:Amazon Makes Compelling Case for Hosting and Processing Your Big Data