写点什么

Twitter 开源了其流处理框架 Summingbird

  • 2014-01-16
  • 本文字数:907 字

    阅读完需:约 3 分钟

Twitter开源了其MapReduce 流处理框架 Summingbird 。Summingbird 是一个大规模数据处理系统,支持开发者以批处理模式(基于 Hadoop/MapReduce)或流处理模式(基于 Storm )或混合模式(即组合前两种模式)以统一的方式执行代码。它基于 Apache 2 许可发布。

现在的软件栈需要手工集成 MapReduce (Pig/Scalding) 和基于流(Storm)的代码,为了处理 5 亿的 Tweet 并能持续成长,Twitter 必须寻找一个替代品。关于创建 Summingbird 的主要动机,Twitter 的工程师提到,在于他们意识到,由于以下原因,在 Storm 上运行一个完全实时的系统非常困难:

  • 要重新计算数月的历史日志,必须与 Hadoop 进行协作,或者是通过某种定制的日志加载机制形成通过 Storm 的流。
  • Storm 专注的是消息传递,随机写入数据库很难维护。

正是这一洞见推动了 Summingbird 这一灵活而通用的方案的出现,它用于解决工程师使用现有方法遇到的实际问题:

  • 两个不同系统中的两组聚合逻辑必须保持同步
  • 在每个系统和客户端之间,键和值必须一致地进行序列化
  • 客户端要负责从两个数据存储读取数据、执行最后的聚合并提供合并结果

Summingbird 也是第一批可以公开获得的 Lambda 架构兼容系统中的一个。类似的项目包括Yahoo 的 Storm-YARN 和一家西班牙创业公司即将发布的 Lambdoop 。Lambdoop 是一个 Java 框架,用于以与 Lambda 架构一致的方式开发大数据应用。Lambda 架构的特色是有一个不可修改、只能追加数据的主数据库,并组合了批处理、服务和加速等不同的层。这些特色支持开发者构建健壮的、可以进行批处理和流处理的大规模数据处理系统,其使用案例涉及从物联网(智能城市、可穿戴设备和制造业)之上的社交媒体平台(比如 Twitter、LinkedIn 等)到金融行业(欺诈检测和推荐)等。

Summingbird 的主要设计者 Oscar Boykin、Sam Ritchie(计算机科学界的传奇人物 Dennis Ritchie 的侄子)和 Ashutosh Singhal 进一步透露了该框架的路线图:

  • 支持 Apache Spark 和列式数据存储格式 Parquet
  • 在 Summingbird 的 Producer 原语之上的高层数学库和机器学习代码
  • 相关开源项目(比如 Algebird 和 Storehaus)更深度的集成

查看英文原文: Twitter Open-Sources its MapReduce Streaming Framework Summingbird

2014-01-16 06:1610207
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 151.8 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

新闻网站封锁AI爬虫 AI与新闻媒体博弈继续

郑州埃文科技

AI 爬虫

【FAQ】HarmonyOS SDK 闭源开放能力 —Map Kit

HarmonyOS SDK

HarmonyOS

从Language Model到Chat Application:对话接口的设计与实现

阿里技术

application Language 设计与实现 对话接口

【愚公系列】2024远控性能大解密!5款评价最高远控软件ToDesk、TeamViewer、向日葵、Parsec、AirDroid谁与争锋?

愚公搬代码

2024-03-06:用go语言,每一种货币都给定面值val[i],和拥有的数量cnt[i], 想知道目前拥有的货币,在钱数为1、2、3...m时,能找零成功的钱数有多少? 也就是说当钱数的范围是1~

福大大架构师每日一题

福大大架构师每日一题

新学期提效神器汇总!男大女大们准备好了吗?

飞桨PaddlePaddle

百度 BAIDU 百度飞桨 AI应用 飞桨星河社区

下一代积木式智能组装编排,集成开发效率10倍提升

华为云开发者联盟

开发 华为云 华为云开发者联盟 DTSE Tech Talk

浪潮信息边缘服务器支持英特尔第五代至强处理器

财见

下一代积木式智能组装编排,集成开发效率10倍提升

华为云

低代码平台与MES:智能制造的新篇章

万界星空科技

制造业 低代码平台 mes 万界星空科技 机器人组装行业

引领测试开发新风向:模型驱动测试的魔力

测试人

软件测试

引领测试开发新风向:模型驱动测试的魔力

测吧(北京)科技有限公司

测试

SecGPT-Mini,一个在CPU上可体验的开源网络安全大模型

云起无垠

MySQL数据库中SQL语句分几类?

小魏写代码

一次性搞定多任务!Python自动化复用浏览器技巧大揭秘

测试人

软件测试

电子元器件行业MES系统能解决哪些管理难题?

万界星空科技

工业互联网 制造业 电子元器件 mes 万界星空科技

软件测试工作两年涨薪40%,揭秘我的学习之路!

测试人

软件测试

抖音详情API:视频内容获取与解析技巧

技术冰糖葫芦

API 接口

5月17-19日 上海线下 · CSP直通车训练营 · CST导师亲授【名额有限,先到先得】

ShineScrum

ScrumMaster 敏捷教练认证 上海线下、 Scrum专业认证

自动化测试的痛点与发展趋势

老张

DevOps 自动化测试

模型驱动测试引领测试开发新风向

霍格沃兹测试开发学社

企业数据内控安全就用行云防水堡!不容错过!

行云管家

数据安全 数据泄露 企业数据 防水堡

工作两年涨薪40%,揭秘我的学习之路!

霍格沃兹测试开发学社

大模型在产品原型生成中的应用实践

得物技术

大前端

网络安全审计是什么意思?与等保测评有什么区别?

行云管家

网络安全 等保测评 网络安全审计

Twitter开源了其流处理框架Summingbird_大数据_Michael Hausenblas_InfoQ精选文章