硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

Spark,Storm 和实时分析

  • 2014-06-19
  • 本文字数:746 字

    阅读完需:约 2 分钟

随着过去几年的信息量爆炸式增长,大数据分析一直在进步。 Hadoop 绝对是首选大数据分析和计算平台。随着数据卷,多样性和速度的增长,作为批处理框架的 Hadoop 已不能满足实时分析的要求。

Apache Spark 背后公司,Databricks 最近提出追加 1400 万美元加速 Spark 和 Shark 的研发。Spark 是用 Scala 写的大规模数据处理引擎,而 Shark 是 Spark 的 Hive 兼容变体。

同 Spark 类似,通过提供事件处理和分布式计算能力, Storm 目标也是改变 Hadoop 批处理特性。通过在有向图中设计拓扑变换,架构师可以完成任意的复杂计算,一次一个变换。

Nathan Marz 利用一线的经验,提出了 lambda 架构模式来解决这个基础架构问题。 Lambda 架构的体系结构包括一个服务层,它会从批处理层获取经常更新的信息,一个速度层,用于计算实时分析来弥补缓慢的批处理层。基本上,Hadoop 是以批进行计算分析,在批次之间的运行,速度层通过以流的形式检查事件来增量更新指标。

Spark 和 Storm 在 Hadoop 集群中进行操作,访问 Hadoop 存储。 Storm-YARN 是 Storm 和 Hadoop 融合体的雅虎开源实现。Spark 为 Hadoop 提供本地集成。Hadoop 集成是利用 YARN (NextGen MapReduce) 获得的。整合实时分析和基于 Hadoop 的系统,允许通过计算弹性更好地利用集群资源,在同一个集群意味着网络传输量最小。

在商业支持方面,Cloudera 已经宣布支持 Spark 和 CDH (Cloudera 包含 Apache Hadoop 的版本)。在 2014 上半年, hortonworks 计划在 HDP (hortonworks 数据平台)整合 Apache Storm。

查看英文原文: Spark, Storm and Real Time Analytics


感谢张龙对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-06-19 07:539541

评论

发布
暂无评论
发现更多内容

指挥中心可视化研判分析系统搭建解决方案

一款优秀数据库中间件的不完全解析

Coder的技术之路

源码阅读 源码刨析 数据库中间件

比特币披萨节由来:11年前BTC首次在现实世界使用

meio

比特币

数字货币与加密货币、虚拟货币的区别

meio

比特币 数字货币 加密货币 虚拟货币

发布两小时,Github访问量破百万,阿里内部首次公布的 Java10W 字面经有多强?

Java 程序员 架构 面试

并发王者课 - 青铜 2:峡谷笔记 - 简单认识Java中的线程

MetaThoughts

Java 后端 多线程 并发 王者并发课

【签约计划】试用期规则

InfoQ写作社区官方

签约计划 热门活动

SWOT分析模型

石云升

创业 战略 职场经验 5月日更

IPFS与 Filecoin的区别是什么?

meio

IPFS Filecoin

夺魁!亚马逊云科技荣膺中国数据管理解决方案领导者!

亚马逊云科技 (Amazon Web Services)

4月热搜:揭秘金融级人脸实名认证解决方案背后的技术硬货

百度大脑

百度

指挥中心可视化研判分析系统搭建解决方案

hive交互的几种方式

五分钟学大数据

大数据 hive 5月日更

全面隔绝虚拟货币暴涨暴跌风险

CECBC

NetCore配置文件使用全过程

happlyfox

520单身福利

Flutter 混合开发基础

网易云信

flutter

从外包跳槽到大厂,我用了55天成功逆袭。

Java 程序员 架构 面试

架构训练营模块 4 作业 - 江哲

江哲

BOE(京东方)亮相世界智能大会 创新科技强势发力智慧物联新赛道

DT极客

Flink的广播变量

大数据技术指南

大数据 flink 5月日更

打破固有思维(十四)

Changing Lin

HarmonyOS 的分布式技术,让小朋友爱上涂鸦

科技汇

区块链技术在数字农业领域的应用挑战

CECBC

ArrayList vs LinkedList

ltc

ArrayList linkedlist

亚马逊云科技宣布在上海设立生命健康行业数字化赋能中心

亚马逊云科技 (Amazon Web Services)

2021年4月券商App行情刷新及交易体验评测报告

博睿数据

博睿数据多点开花,数据链DNA加速走进金融、医疗、政企行业

博睿数据

数据链DNA

5分钟速读之Rust权威指南(六)

wzx

rust

医疗数字化:区块链或成最强辅助

CECBC

医疗

一款开源小工具,提升K8S资源管理幸福感!

Rancher

API网关才是大势所趋?SpringCloud Gateway保姆级入门教程

Zhendong

Java spring API 网关

Spark,Storm和实时分析_DevOps & 平台工程_Alex Giamas_InfoQ精选文章