写点什么

Twitter 开源了其流处理框架 Summingbird

  • 2014-01-16
  • 本文字数:907 字

    阅读完需:约 3 分钟

Twitter开源了其MapReduce 流处理框架 Summingbird 。Summingbird 是一个大规模数据处理系统,支持开发者以批处理模式(基于 Hadoop/MapReduce)或流处理模式(基于 Storm )或混合模式(即组合前两种模式)以统一的方式执行代码。它基于 Apache 2 许可发布。

现在的软件栈需要手工集成 MapReduce (Pig/Scalding) 和基于流(Storm)的代码,为了处理 5 亿的 Tweet 并能持续成长,Twitter 必须寻找一个替代品。关于创建 Summingbird 的主要动机,Twitter 的工程师提到,在于他们意识到,由于以下原因,在 Storm 上运行一个完全实时的系统非常困难:

  • 要重新计算数月的历史日志,必须与 Hadoop 进行协作,或者是通过某种定制的日志加载机制形成通过 Storm 的流。
  • Storm 专注的是消息传递,随机写入数据库很难维护。

正是这一洞见推动了 Summingbird 这一灵活而通用的方案的出现,它用于解决工程师使用现有方法遇到的实际问题:

  • 两个不同系统中的两组聚合逻辑必须保持同步
  • 在每个系统和客户端之间,键和值必须一致地进行序列化
  • 客户端要负责从两个数据存储读取数据、执行最后的聚合并提供合并结果

Summingbird 也是第一批可以公开获得的 Lambda 架构兼容系统中的一个。类似的项目包括Yahoo 的 Storm-YARN 和一家西班牙创业公司即将发布的 Lambdoop 。Lambdoop 是一个 Java 框架,用于以与 Lambda 架构一致的方式开发大数据应用。Lambda 架构的特色是有一个不可修改、只能追加数据的主数据库,并组合了批处理、服务和加速等不同的层。这些特色支持开发者构建健壮的、可以进行批处理和流处理的大规模数据处理系统,其使用案例涉及从物联网(智能城市、可穿戴设备和制造业)之上的社交媒体平台(比如 Twitter、LinkedIn 等)到金融行业(欺诈检测和推荐)等。

Summingbird 的主要设计者 Oscar Boykin、Sam Ritchie(计算机科学界的传奇人物 Dennis Ritchie 的侄子)和 Ashutosh Singhal 进一步透露了该框架的路线图:

  • 支持 Apache Spark 和列式数据存储格式 Parquet
  • 在 Summingbird 的 Producer 原语之上的高层数学库和机器学习代码
  • 相关开源项目(比如 Algebird 和 Storehaus)更深度的集成

查看英文原文: Twitter Open-Sources its MapReduce Streaming Framework Summingbird

2014-01-16 06:1610125
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 149.2 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

聚道云助力秒速对接,支付体验飞跃升级!

聚道云软件连接器

案例分享

QFI 2024年第二季度創羽計畫再次啟動,臺灣分部學員迎來最後的絕佳機會並獲得專案補助資格

科技热闻

360 智慧商业 x TiDB丨数据架构革新驱动广告业务高效运作

TiDB 社区干货传送门

实践案例 社区活动 数据库架构设计

将 TIUP Package 组件能力集成到 TiUP Mirror Pack

TiDB 社区干货传送门

TiDB 源码解读 8.x 实践

敢于公布BUG的国产数据库才是好数据库

TiDB 社区干货传送门

管理与运维

大模型安全 | RAG精确应对大模型敏感问题知识幻觉难题

百度安全

万字长文详解降本增效利器 PikiwiDB(Pika) 混合存储原理

apache/dubbo-go

國際知名榮譽顧問加入台灣分析集團總部,全面升級量子電腦Q系統

科技汇

代码高手的过节秘籍:CodeArt Snap帮写代码,灵感弹指间实现

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 华为云CodeArts 企业号2024年6月PK榜

揭秘大模型价格战:差异化定价背后的“买的没有卖的精”

开发者 软件开发 华为云

【必收藏】TiDB 从 v4.0 到 v7.5 有哪些功能变化?看这篇文章就够了!

TiDB 社区干货传送门

版本测评

新三顾茅庐:大型政企为何选择「混合云」!

脑极体

云计算

机关事业单位需要进行等保测评吗?一年要几次?

行云管家

等保 等保测评 机关事业单位 机关

助推企业数字化转型,MAXHUB连续三年荣膺“CIO信赖品牌”

科技热闻

WSPA台灣分部在2024年第二季度以6億美元TvPv表現亮眼

科技热闻

解析SD-WAN带宽相关问题

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

Flink⼤状态作业调优实践指南:状态报错与启停慢篇

Apache Flink

大数据 flink

高效抓取电商平台商品数据:基于API接口的艺术与实践

Noah

PingCAP 成为获评 Gartner 云数据库“客户之选”的首个中国独立数据库厂商

TiDB 社区干货传送门

社区活动

存储设备有哪些?属于私有云平台吗?怎么理解?

行云管家

存储 堡垒机 私有云平台

美团面试:说说Netty的零拷贝技术?

王磊

Mac电脑玩win游戏用什么?PD虚拟机和CrossOver玩游戏谁更好?

阿拉灯神丁

软件 Mac 软件 CrossOver Mac下载 虚拟机软件 pd 19

企业是保留传统的MES还是换新的MES?

万界星空科技

生产管理系统 mes 定制开发 万界星空科技

制造业为什么需要质量管理系统

万界星空科技

质量管理 万界星空科技 QMS 生产质量

國際知名榮譽顧問加入台灣分析集團總部,全面升級量子電腦Q系統

科技热闻

借助大模型技术,G7易流“智能接单”业务更高效、更精准

新消费日报

Twitter开源了其流处理框架Summingbird_大数据_Michael Hausenblas_InfoQ精选文章