写点什么

Twitter 开源了其流处理框架 Summingbird

  • 2014-01-16
  • 本文字数:907 字

    阅读完需:约 3 分钟

Twitter开源了其MapReduce 流处理框架 Summingbird 。Summingbird 是一个大规模数据处理系统,支持开发者以批处理模式(基于 Hadoop/MapReduce)或流处理模式(基于 Storm )或混合模式(即组合前两种模式)以统一的方式执行代码。它基于 Apache 2 许可发布。

现在的软件栈需要手工集成 MapReduce (Pig/Scalding) 和基于流(Storm)的代码,为了处理 5 亿的 Tweet 并能持续成长,Twitter 必须寻找一个替代品。关于创建 Summingbird 的主要动机,Twitter 的工程师提到,在于他们意识到,由于以下原因,在 Storm 上运行一个完全实时的系统非常困难:

  • 要重新计算数月的历史日志,必须与 Hadoop 进行协作,或者是通过某种定制的日志加载机制形成通过 Storm 的流。
  • Storm 专注的是消息传递,随机写入数据库很难维护。

正是这一洞见推动了 Summingbird 这一灵活而通用的方案的出现,它用于解决工程师使用现有方法遇到的实际问题:

  • 两个不同系统中的两组聚合逻辑必须保持同步
  • 在每个系统和客户端之间,键和值必须一致地进行序列化
  • 客户端要负责从两个数据存储读取数据、执行最后的聚合并提供合并结果

Summingbird 也是第一批可以公开获得的 Lambda 架构兼容系统中的一个。类似的项目包括Yahoo 的 Storm-YARN 和一家西班牙创业公司即将发布的 Lambdoop 。Lambdoop 是一个 Java 框架,用于以与 Lambda 架构一致的方式开发大数据应用。Lambda 架构的特色是有一个不可修改、只能追加数据的主数据库,并组合了批处理、服务和加速等不同的层。这些特色支持开发者构建健壮的、可以进行批处理和流处理的大规模数据处理系统,其使用案例涉及从物联网(智能城市、可穿戴设备和制造业)之上的社交媒体平台(比如 Twitter、LinkedIn 等)到金融行业(欺诈检测和推荐)等。

Summingbird 的主要设计者 Oscar Boykin、Sam Ritchie(计算机科学界的传奇人物 Dennis Ritchie 的侄子)和 Ashutosh Singhal 进一步透露了该框架的路线图:

  • 支持 Apache Spark 和列式数据存储格式 Parquet
  • 在 Summingbird 的 Producer 原语之上的高层数学库和机器学习代码
  • 相关开源项目(比如 Algebird 和 Storehaus)更深度的集成

查看英文原文: Twitter Open-Sources its MapReduce Streaming Framework Summingbird

2014-01-16 06:1610033
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 146.0 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

录屏神器Camtasia2024中文永久免费版安装教程,camtasia喀秋莎汉化补丁破解版激活码

阿拉灯神丁

录屏软件 激活码生成器 后期制作 Camtasia Studio2024 视频剪辑软件下载

10月份主要经济体工厂需求减弱:GEP全球供应链波动指数

财见

8款有效提升企业文档管理的工具推荐

易成研发中心

轻松在 Neolink.AI 上搭建你的个性化 ChatGPT 服务

MatrixOrigin

ChatGPT 定制

一文读懂Lumoz主网上线前的活动红利:从空投到OG NFT

加密眼界

一文读懂Lumoz主网上线前的活动红利:从空投到OG NFT

BlockChain先知

BSI主办IEC第88届大会,聚焦全电力社会转型中的风险和机遇

财见

电子文档管理软件选购指南:9款产品深度对比

易成研发中心

直播回顾 | MatrixOne 2.0 AI 向量数据库与GenAI能力深度解析

MatrixOrigin

数据库 云原生 AI搜索

蜗牛游戏宣布2024年第三季度财报业绩

财见

大模型的效率腾飞,彩云科技做对了什么?

脑极体

AI

2024-11-16:哈沙德数。用go语言,如果一个整数能够被它的各个数位上数字的和整除, 我们称这个整数为哈沙德数(Harshad number)。 给定一个整数 x, 如果 x 是哈沙德数,则返回

福大大架构师每日一题

福大大架构师每日一题

从空投到OG NFT:全方位解读Lumoz主网上线前的活动

石头财经

为什么说MEMS-OXC在智算场景没有未来?

脑极体

ESG,产品经理认证新热点

科技热闻

高并发编程/消息传递机制避免锁提高并发效率,不懂的赶紧进来(设计篇)

肖哥弹架构

Java 并发编程 高并发

Viper,一个Go语言配置管理神器!

左诗右码

《Django 5 By Example》阅读笔记:p165-p210

codists

Python django

探索《Crypto Rumble》游戏:核心玩法篇

股市老人

Red Hat Enterprise Linux 10 下载 - 红帽企业 Linux

sysin

redhat RHEL

30+程序员降薪跳槽到银行,技术优势在晋升体系下成了空谈

码哥字节

银行 互联网人 职场晋升

一文读懂Lumoz主网上线前的活动红利:从空投到OG NFT

股市老人

【摘录】《学会提问》

充实的orzi

阅读

电子合同风险管理:签约前的注意事项

易成研发中心

电子合同 电子合同软件

ESG,全才产品经理培训新特色

科技热闻

矩阵起源入选IDC《RAG与向量数据库市场前景预测》报告

MatrixOrigin

IDC 向量数据库

不同团队如何实现登录系统 (just for fun)

八苦-瞿昙

just for fun

springboot整合工作常用框架中间件

恩爸编程

缓存 spring-cloud spring-boot 数据库、 消息列队

Twitter开源了其流处理框架Summingbird_大数据_Michael Hausenblas_InfoQ精选文章