AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

Twitter 开源了其流处理框架 Summingbird

  • 2014-01-16
  • 本文字数:907 字

    阅读完需:约 3 分钟

Twitter开源了其MapReduce 流处理框架 Summingbird 。Summingbird 是一个大规模数据处理系统,支持开发者以批处理模式(基于 Hadoop/MapReduce)或流处理模式(基于 Storm )或混合模式(即组合前两种模式)以统一的方式执行代码。它基于 Apache 2 许可发布。

现在的软件栈需要手工集成 MapReduce (Pig/Scalding) 和基于流(Storm)的代码,为了处理 5 亿的 Tweet 并能持续成长,Twitter 必须寻找一个替代品。关于创建 Summingbird 的主要动机,Twitter 的工程师提到,在于他们意识到,由于以下原因,在 Storm 上运行一个完全实时的系统非常困难:

  • 要重新计算数月的历史日志,必须与 Hadoop 进行协作,或者是通过某种定制的日志加载机制形成通过 Storm 的流。
  • Storm 专注的是消息传递,随机写入数据库很难维护。

正是这一洞见推动了 Summingbird 这一灵活而通用的方案的出现,它用于解决工程师使用现有方法遇到的实际问题:

  • 两个不同系统中的两组聚合逻辑必须保持同步
  • 在每个系统和客户端之间,键和值必须一致地进行序列化
  • 客户端要负责从两个数据存储读取数据、执行最后的聚合并提供合并结果

Summingbird 也是第一批可以公开获得的 Lambda 架构兼容系统中的一个。类似的项目包括Yahoo 的 Storm-YARN 和一家西班牙创业公司即将发布的 Lambdoop 。Lambdoop 是一个 Java 框架,用于以与 Lambda 架构一致的方式开发大数据应用。Lambda 架构的特色是有一个不可修改、只能追加数据的主数据库,并组合了批处理、服务和加速等不同的层。这些特色支持开发者构建健壮的、可以进行批处理和流处理的大规模数据处理系统,其使用案例涉及从物联网(智能城市、可穿戴设备和制造业)之上的社交媒体平台(比如 Twitter、LinkedIn 等)到金融行业(欺诈检测和推荐)等。

Summingbird 的主要设计者 Oscar Boykin、Sam Ritchie(计算机科学界的传奇人物 Dennis Ritchie 的侄子)和 Ashutosh Singhal 进一步透露了该框架的路线图:

  • 支持 Apache Spark 和列式数据存储格式 Parquet
  • 在 Summingbird 的 Producer 原语之上的高层数学库和机器学习代码
  • 相关开源项目(比如 Algebird 和 Storehaus)更深度的集成

查看英文原文: Twitter Open-Sources its MapReduce Streaming Framework Summingbird

2014-01-16 06:169976
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 143.9 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

AI写作助手能否超越人类创造力?DeepSeek等技术崛起,未来已来

天津汇柏科技有限公司

浅析政府网站IPv6改造面临的问题和应对策略

国科云

深度解读「摩根士丹利」人形机器人最新研报:100家人形机器人价值链(附报告)

机器人头条

科技 大模型 人形机器人 具身智能

OgPhone云手机是怎样避免TikTok封号以及提高效率的?

Ogcloud

云手机 海外云手机 tiktok云手机 tiktok运营 tiktok封号

构筑全球化数智化运营能力,用友携手伙伴共拓全球市场

用友BIP

AI+ 数智化 出海 用友BIP

【完整汇总】近 5 年 JavaScript 新特性完整总览

Immerse

JavaScript 前端 ECMAScript 6

Worker模块源码实战:万字长文解析DolphinScheduler如何实现亿级任务调度

白鲸开源

大数据 开源 Apache DolphinScheduler

裁员后,才明白职业规划的重要性

老张

职业规划 职场成长 求职面试

性能测试丨App启动性能分析与优化建议

测试人

性能测试

AI 时代下,企业如何借助工具实现降本增效?(实例详解)

Techinsight

10年电商API接口爬虫踩过坑后,我总结出一套指南

代码忍者

API 测试

Go 语言优雅退出:让程序体面“退休”

FunTester

非凸AI实验室人才招聘

非凸科技

用友2025大型企业财务数智化峰会成功举办!

用友智能财务

企业 财务 管理会计

RealClip上线:革新轻量级数字互动体验

xuyinyin

Koupleless 助力「人力家」实现分布式研发集中式部署,又快又省!

SOFAStack

重生之数据结构与算法----数组&链表

不在线第一只蜗牛

Java 数据结构 链表

Linux系列:如何用 C#调用 C方法造成内存泄露

不在线第一只蜗牛

C# Linux

数据没“就绪”,马斯克和AI大模型照样犯错

白鲸开源

人工智能 马斯克 WhaleStudio 数据准备

再募资约10亿港元,这家机器人领域上市公司继续加码人形机器人赛道!

机器人头条

大模型 人形机器人 具身智能

Twitter开源了其流处理框架Summingbird_大数据_Michael Hausenblas_InfoQ精选文章