写点什么

Twitter 开源了其流处理框架 Summingbird

  • 2014-01-16
  • 本文字数:907 字

    阅读完需:约 3 分钟

Twitter开源了其MapReduce 流处理框架 Summingbird 。Summingbird 是一个大规模数据处理系统,支持开发者以批处理模式(基于 Hadoop/MapReduce)或流处理模式(基于 Storm )或混合模式(即组合前两种模式)以统一的方式执行代码。它基于 Apache 2 许可发布。

现在的软件栈需要手工集成 MapReduce (Pig/Scalding) 和基于流(Storm)的代码,为了处理 5 亿的 Tweet 并能持续成长,Twitter 必须寻找一个替代品。关于创建 Summingbird 的主要动机,Twitter 的工程师提到,在于他们意识到,由于以下原因,在 Storm 上运行一个完全实时的系统非常困难:

  • 要重新计算数月的历史日志,必须与 Hadoop 进行协作,或者是通过某种定制的日志加载机制形成通过 Storm 的流。
  • Storm 专注的是消息传递,随机写入数据库很难维护。

正是这一洞见推动了 Summingbird 这一灵活而通用的方案的出现,它用于解决工程师使用现有方法遇到的实际问题:

  • 两个不同系统中的两组聚合逻辑必须保持同步
  • 在每个系统和客户端之间,键和值必须一致地进行序列化
  • 客户端要负责从两个数据存储读取数据、执行最后的聚合并提供合并结果

Summingbird 也是第一批可以公开获得的 Lambda 架构兼容系统中的一个。类似的项目包括Yahoo 的 Storm-YARN 和一家西班牙创业公司即将发布的 Lambdoop 。Lambdoop 是一个 Java 框架,用于以与 Lambda 架构一致的方式开发大数据应用。Lambda 架构的特色是有一个不可修改、只能追加数据的主数据库,并组合了批处理、服务和加速等不同的层。这些特色支持开发者构建健壮的、可以进行批处理和流处理的大规模数据处理系统,其使用案例涉及从物联网(智能城市、可穿戴设备和制造业)之上的社交媒体平台(比如 Twitter、LinkedIn 等)到金融行业(欺诈检测和推荐)等。

Summingbird 的主要设计者 Oscar Boykin、Sam Ritchie(计算机科学界的传奇人物 Dennis Ritchie 的侄子)和 Ashutosh Singhal 进一步透露了该框架的路线图:

  • 支持 Apache Spark 和列式数据存储格式 Parquet
  • 在 Summingbird 的 Producer 原语之上的高层数学库和机器学习代码
  • 相关开源项目(比如 Algebird 和 Storehaus)更深度的集成

查看英文原文: Twitter Open-Sources its MapReduce Streaming Framework Summingbird

2014-01-16 06:1610149
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 150.0 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

助你升职加薪的浣熊表哥

石云升

数据分析 数据可视化 办公小浣熊

Termius for Mac(跨平台SSH客户端) v8.4.0多语言版

Rose

PDF Reader Pro for mac(全能pdf编辑阅读软件)v4.0.3直装激活版

Rose

数字身份管理发展趋势:访问控制智能化

芯盾时代

AI 数字身份 iam 统一身份认证 访问控制

极具未来感的京东.Vision来了!最潮的人已收藏!

京东科技开发者

VMware ESXi 8.0U3 macOS Unlocker & OEM BIOS ConnectX-3 网卡定制版 (集成驱动版)

sysin

macos esxi OEM ConnectX-3 网卡驱动

OpenAI进军AI健康领域;首款搭载Apple Intelligence的智能家居设备将是桌面机器人|AI日报

可信AI进展

人工智能

IDA Pro 7 静态反编译工具

Rose

Acrobat Pro DC 2023 下载 含激活补丁

Rose

大模型文档神器:合合信息大模型加速器

herosunly

大模型 合合信息 AIGC 文档神器 合合信息大模型加速器

Final Cut Pro v10.8.0 中文版 Mac上FCPX经典视频剪辑软件

Rose

Navicat Premium 15 for Mac/Win 中文安装包下载

你的猪会飞吗

mac单机游戏

低代码技术革新:高效构建现代人事管理系统

天津汇柏科技有限公司

低代码开发

淘宝商品详情api接口:快速获取商品主图,价格,

技术冰糖葫芦

API 文档 API 开发 API 协议 pinduoduo API

人工智能赋能教育:华为云推动宝安中学迈进教育+AI新时代

最新动态

IBM SPSS Statistics 26破解版下载 spss统计软件

Rose

Cornerstone for Mac(最好用的SVN管理工具)v4.2永久激活版

Rose

深度解析 PostgreSQL Protocol v3.0(三)— 流复制(上)

KaiwuDB

postgresql KaiwuDB 流复制

从CVE-2024-6387 OpenSSH Server 漏洞谈谈企业安全运营与应急响应

京东科技开发者

SecureCRT下载,securecrt 破解版,终端SSH仿真工具

Rose

Java开发分析软件,JProfiler破解版【永久激活版】

Rose

Mac数据库软件,Navicat Premium 破解版,Navicat Premium 15下载

Rose

2024 「全球软件研发技术大会】-刘兴东分享京东的AIGC革新之旅

京东科技开发者

利用AI智能体实现自动化公开课

霍格沃兹测试开发学社

为何我们决定从零开始创建 NGINX Gateway Fabric

NGINX开源社区

开源 开源软件 NGINX Ingress Controller API 开发 Kubernets

Twitter开源了其流处理框架Summingbird_大数据_Michael Hausenblas_InfoQ精选文章