Spark，Storm和实时分析

随着过去几年的信息量爆炸式增长，大数据分析一直在进步。 Hadoop 绝对是首选大数据分析和计算平台。随着数据卷，多样性和速度的增长，作为批处理框架的 Hadoop 已不能满足实时分析的要求。

Apache Spark 背后公司，Databricks 最近提出追加 1400 万美元加速 Spark 和 Shark 的研发。Spark 是用 Scala 写的大规模数据处理引擎，而 Shark 是 Spark 的 Hive 兼容变体。

同 Spark 类似，通过提供事件处理和分布式计算能力， Storm 目标也是改变 Hadoop 批处理特性。通过在有向图中设计拓扑变换，架构师可以完成任意的复杂计算，一次一个变换。

Nathan Marz 利用一线的经验，提出了 lambda 架构模式来解决这个基础架构问题。 Lambda 架构的体系结构包括一个服务层，它会从批处理层获取经常更新的信息，一个速度层，用于计算实时分析来弥补缓慢的批处理层。基本上，Hadoop 是以批进行计算分析，在批次之间的运行，速度层通过以流的形式检查事件来增量更新指标。

Spark 和 Storm 在 Hadoop 集群中进行操作，访问 Hadoop 存储。 Storm-YARN 是 Storm 和 Hadoop 融合体的雅虎开源实现。Spark 为 Hadoop 提供本地集成。Hadoop 集成是利用 YARN (NextGen MapReduce) 获得的。整合实时分析和基于 Hadoop 的系统，允许通过计算弹性更好地利用集群资源，在同一个集群意味着网络传输量最小。

在商业支持方面，Cloudera 已经宣布支持 Spark 和 CDH （Cloudera 包含 Apache Hadoop 的版本）。在 2014 上半年， hortonworks 计划在 HDP （hortonworks 数据平台）整合 Apache Storm。

查看英文原文： Spark, Storm and Real Time Analytics

感谢张龙对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ）或者腾讯微博（ @InfoQ ）关注我们，并与我们的编辑和其他读者朋友交流。

创作场景

Spark，Storm 和实时分析