【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

Twitter 开源了其流处理框架 Summingbird

  • 2014-01-16
  • 本文字数:907 字

    阅读完需:约 3 分钟

Twitter开源了其MapReduce 流处理框架 Summingbird 。Summingbird 是一个大规模数据处理系统,支持开发者以批处理模式(基于 Hadoop/MapReduce)或流处理模式(基于 Storm )或混合模式(即组合前两种模式)以统一的方式执行代码。它基于 Apache 2 许可发布。

现在的软件栈需要手工集成 MapReduce (Pig/Scalding) 和基于流(Storm)的代码,为了处理 5 亿的 Tweet 并能持续成长,Twitter 必须寻找一个替代品。关于创建 Summingbird 的主要动机,Twitter 的工程师提到,在于他们意识到,由于以下原因,在 Storm 上运行一个完全实时的系统非常困难:

  • 要重新计算数月的历史日志,必须与 Hadoop 进行协作,或者是通过某种定制的日志加载机制形成通过 Storm 的流。
  • Storm 专注的是消息传递,随机写入数据库很难维护。

正是这一洞见推动了 Summingbird 这一灵活而通用的方案的出现,它用于解决工程师使用现有方法遇到的实际问题:

  • 两个不同系统中的两组聚合逻辑必须保持同步
  • 在每个系统和客户端之间,键和值必须一致地进行序列化
  • 客户端要负责从两个数据存储读取数据、执行最后的聚合并提供合并结果

Summingbird 也是第一批可以公开获得的 Lambda 架构兼容系统中的一个。类似的项目包括Yahoo 的 Storm-YARN 和一家西班牙创业公司即将发布的 Lambdoop 。Lambdoop 是一个 Java 框架,用于以与 Lambda 架构一致的方式开发大数据应用。Lambda 架构的特色是有一个不可修改、只能追加数据的主数据库,并组合了批处理、服务和加速等不同的层。这些特色支持开发者构建健壮的、可以进行批处理和流处理的大规模数据处理系统,其使用案例涉及从物联网(智能城市、可穿戴设备和制造业)之上的社交媒体平台(比如 Twitter、LinkedIn 等)到金融行业(欺诈检测和推荐)等。

Summingbird 的主要设计者 Oscar Boykin、Sam Ritchie(计算机科学界的传奇人物 Dennis Ritchie 的侄子)和 Ashutosh Singhal 进一步透露了该框架的路线图:

  • 支持 Apache Spark 和列式数据存储格式 Parquet
  • 在 Summingbird 的 Producer 原语之上的高层数学库和机器学习代码
  • 相关开源项目(比如 Algebird 和 Storehaus)更深度的集成

查看英文原文: Twitter Open-Sources its MapReduce Streaming Framework Summingbird

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-01-16 06:169613
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 130.3 次阅读, 收获喜欢 34 次。

关注

评论

发布
暂无评论
发现更多内容

springboot增加logback日志记录ip详解

百度搜索:蓝易云

spring Linux 运维 IP 云服务器

Docker部署jar项目教程

百度搜索:蓝易云

Java Docker jar Linux 云服务器

Java多线程编程实战指南(核心篇)PDF

程序员李木子

全新加密叙事,以Solmash为代表的 LaunchPad 平台如何为用户赋能?

股市老人

淘宝店铺所有商品数据接口丨淘宝API接口

tbapi

淘宝API接口 淘宝店铺所有商品数据接口 天猫店铺所有商品数据接口

平台工程与安全

俞凡

DevOps DevSecOps 平台工程

SRM源码供应商招标采购管理系统

金陵老街

源码 Vue Java' spring-boot SRM系统

全新加密叙事,以Solmash为代表的 LaunchPad 平台如何为用户赋能?

石头财经

高精度恒流/恒压(CC/CV)原边反馈功率转换器

智趣匠

全新加密叙事,以Solmash为代表的 LaunchPad 平台如何为用户赋能?

BlockChain先知

Programming Abstractions in C阅读笔记:p246-p247

codists

精彩推荐 |【Java技术专题】「重塑技术功底」攻破Java技术盲点之剖析动态代理的实现原理和开发指南(上)

洛神灬殇

Java 后端 JDK 动态代理 CGLIB 动态代理 2024年第九篇文章

微前端无界机制浅析

快乐非自愿限量之名

前端 前端开发 前端框架

全新加密叙事,以Solmash为代表的 LaunchPad 平台如何为用户赋能?

加密眼界

mysql的mmm高可用详解。

百度搜索:蓝易云

MySQL 云计算 Linux 运维 云服务器

Java多线程编程实战指南(设计模式篇)PDF

程序员李木子

【深入浅出Docker原理及实战】「原理实战体系」零基础+全方位带你学习探索Docker容器开发实战指南(Dockerfile使用手册)

洛神灬殇

Docker Linux 容器 Dockerfile 2024年第十篇文章

左耳听风 - 成长中的问题「读书打卡 day 06」

Java 工程师蔡姬

读书笔记 程序员 个人成长 读书 职业发展

CnosDB的数据更新和删除

CnosDB

开源 时序数据库 tsdb CnosDB

数据魔术师:如何在ClkLog中恢复丢失数据并实现数据更新

ClkLog

文心一言 VS 讯飞星火 VS chatgpt (178)-- 算法导论13.4 1题

福大大架构师每日一题

福大大架构师每日一题

谷歌推广该选择SEO还是Ads?谷歌技巧分享及实战

九凌网络

全新加密叙事,以Solmash为代表的 LaunchPad 平台如何为用户赋能?

大瞿科技

全网最详细MVCC讲解,一篇看懂

Java随想录

Java MySQL 数据库 MVCC

深入了解 Python MongoDB 查询:find 和 find_one 方法完全解析

小万哥

Python 数据库 程序人生 软件工程 后端开发

掌握用户心理:通过ClkLog打造精准用户画像(下)

ClkLog

全新加密叙事,以Solmash为代表 LaunchPad 平台如何为用户赋能?

EOSdreamer111

全新加密叙事,以Solmash为代表的 LaunchPad 平台如何为用户赋能?

长安区块链

全新加密叙事,以Solmash为代表的 LaunchPad 平台如何为用户赋能?

西柚子

无缝打通易快报与电子签章系统,合同管理也能如此简单!

聚道云软件连接器

案例分享

掌握用户心理:通过ClkLog打造精准用户画像(上)

ClkLog

Twitter开源了其流处理框架Summingbird_大数据_Michael Hausenblas_InfoQ精选文章