写点什么

Twitter 开源了其流处理框架 Summingbird

  • 2014-01-16
  • 本文字数:907 字

    阅读完需:约 3 分钟

Twitter开源了其MapReduce 流处理框架 Summingbird 。Summingbird 是一个大规模数据处理系统,支持开发者以批处理模式(基于 Hadoop/MapReduce)或流处理模式(基于 Storm )或混合模式(即组合前两种模式)以统一的方式执行代码。它基于 Apache 2 许可发布。

现在的软件栈需要手工集成 MapReduce (Pig/Scalding) 和基于流(Storm)的代码,为了处理 5 亿的 Tweet 并能持续成长,Twitter 必须寻找一个替代品。关于创建 Summingbird 的主要动机,Twitter 的工程师提到,在于他们意识到,由于以下原因,在 Storm 上运行一个完全实时的系统非常困难:

  • 要重新计算数月的历史日志,必须与 Hadoop 进行协作,或者是通过某种定制的日志加载机制形成通过 Storm 的流。
  • Storm 专注的是消息传递,随机写入数据库很难维护。

正是这一洞见推动了 Summingbird 这一灵活而通用的方案的出现,它用于解决工程师使用现有方法遇到的实际问题:

  • 两个不同系统中的两组聚合逻辑必须保持同步
  • 在每个系统和客户端之间,键和值必须一致地进行序列化
  • 客户端要负责从两个数据存储读取数据、执行最后的聚合并提供合并结果

Summingbird 也是第一批可以公开获得的 Lambda 架构兼容系统中的一个。类似的项目包括Yahoo 的 Storm-YARN 和一家西班牙创业公司即将发布的 Lambdoop 。Lambdoop 是一个 Java 框架,用于以与 Lambda 架构一致的方式开发大数据应用。Lambda 架构的特色是有一个不可修改、只能追加数据的主数据库,并组合了批处理、服务和加速等不同的层。这些特色支持开发者构建健壮的、可以进行批处理和流处理的大规模数据处理系统,其使用案例涉及从物联网(智能城市、可穿戴设备和制造业)之上的社交媒体平台(比如 Twitter、LinkedIn 等)到金融行业(欺诈检测和推荐)等。

Summingbird 的主要设计者 Oscar Boykin、Sam Ritchie(计算机科学界的传奇人物 Dennis Ritchie 的侄子)和 Ashutosh Singhal 进一步透露了该框架的路线图:

  • 支持 Apache Spark 和列式数据存储格式 Parquet
  • 在 Summingbird 的 Producer 原语之上的高层数学库和机器学习代码
  • 相关开源项目(比如 Algebird 和 Storehaus)更深度的集成

查看英文原文: Twitter Open-Sources its MapReduce Streaming Framework Summingbird

2014-01-16 06:1610160
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 150.4 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

玩转gRPC—深入概念与原理

闫同学

gRPC 网络协议 后端开发

【愚公系列】2022年7月 Go教学课程 003-IDE的安装和基本使用

愚公搬代码

7月月更

蓝队攻防演练中的三段作战

穿过生命散发芬芳

攻防演练 7月月更

浅聊一下中间件

为自己带盐

中间件 7月月更 dotnetcore

C语言中sizeof操作符的坑

Albert Edison

c++ C语言 7月月更 sizeof

湘江鲲鹏加入昇腾万里伙伴计划,与华为续写合作新篇章

极客天地

HUAWEI nova 10系列发布 华为应用市场筑牢应用安全防火墙

最新动态

能源势动:电力行业的碳中和该如何实现?

脑极体

leetcode 72. Edit Distance 编辑距离(中等)

okokabcd

LeetCode 动态规划 算法与数据结构

图解网络:什么是网关负载均衡协议GLBP?

wljslmz

网络协议 7月月更 GLBP 图解网络 网关负载均衡协议

【Docker 那些事儿】容器为什么傲娇?全靠Hub撑腰

Albert Edison

7月月更

Vuex(三)

小恺

7月日更

关于栈区、堆区、全局区、文字常量区、程序代码区

NewBoy

前端 移动端 iOS 知识体系 7月月更

质量体系建设之路的分分合合

RTE开发者社区

创业讲堂 生态专栏

HPDC智能基座人才发展峰会随笔

乌龟哥哥

7月月更

服务线上治理

阿泽🧸

微服务 7月月更

牛客java选择题每日打卡Day6

京与旧铺

7月月更

TLA+ 入门教程(1):形式化方法简介

多颗糖

分布式系统 TLA+

跨域请求

Jason199

跨域 7月月更

OpenHarmony资源管理详解

坚果

HarmonyOS OpenHarmony 6月月更

智洋创新与华为签署合作协议,共同推进昇腾AI产业持续发展

极客天地

使用 BlocConsumer 同时构建响应式组件和监听状态

岛上码农

flutter ios 安卓 移动端开发 7月月更

2022-Java后端工程师面试指南-(Java基础篇)

自然

Java’ 7月月更

后CentOS时代的操作系统漫谈

冯骐

centos 开源 openEuler 国产化 Anolis

可视化任务编排&拖拉拽 | Scaleph 基于 Apache SeaTunnel的数据集成

Apache SeaTunnel

数据同步 数据集成 可视化开发 数据集成平台 拖拉拽

广电五舟与华为签署合作协议,共同推进昇腾AI产业持续发展

极客天地

繁华落尽、物是人非:个人站长该何去何从

石头IT视角

认识ThreadPoolExecutor

zarmnosaj

7月月更

可观测|时序数据降采样在Prometheus实践复盘

阿里巴巴云原生

阿里云 云原生 Prometheus 可观测

算法入门很简单:链表题套路及精选题目

宇宙之一粟

链表 7月月更

Twitter开源了其流处理框架Summingbird_大数据_Michael Hausenblas_InfoQ精选文章