写点什么

Twitter 开源了其流处理框架 Summingbird

  • 2014-01-16
  • 本文字数:907 字

    阅读完需:约 3 分钟

Twitter开源了其MapReduce 流处理框架 Summingbird 。Summingbird 是一个大规模数据处理系统,支持开发者以批处理模式(基于 Hadoop/MapReduce)或流处理模式(基于 Storm )或混合模式(即组合前两种模式)以统一的方式执行代码。它基于 Apache 2 许可发布。

现在的软件栈需要手工集成 MapReduce (Pig/Scalding) 和基于流(Storm)的代码,为了处理 5 亿的 Tweet 并能持续成长,Twitter 必须寻找一个替代品。关于创建 Summingbird 的主要动机,Twitter 的工程师提到,在于他们意识到,由于以下原因,在 Storm 上运行一个完全实时的系统非常困难:

  • 要重新计算数月的历史日志,必须与 Hadoop 进行协作,或者是通过某种定制的日志加载机制形成通过 Storm 的流。
  • Storm 专注的是消息传递,随机写入数据库很难维护。

正是这一洞见推动了 Summingbird 这一灵活而通用的方案的出现,它用于解决工程师使用现有方法遇到的实际问题:

  • 两个不同系统中的两组聚合逻辑必须保持同步
  • 在每个系统和客户端之间,键和值必须一致地进行序列化
  • 客户端要负责从两个数据存储读取数据、执行最后的聚合并提供合并结果

Summingbird 也是第一批可以公开获得的 Lambda 架构兼容系统中的一个。类似的项目包括Yahoo 的 Storm-YARN 和一家西班牙创业公司即将发布的 Lambdoop 。Lambdoop 是一个 Java 框架,用于以与 Lambda 架构一致的方式开发大数据应用。Lambda 架构的特色是有一个不可修改、只能追加数据的主数据库,并组合了批处理、服务和加速等不同的层。这些特色支持开发者构建健壮的、可以进行批处理和流处理的大规模数据处理系统,其使用案例涉及从物联网(智能城市、可穿戴设备和制造业)之上的社交媒体平台(比如 Twitter、LinkedIn 等)到金融行业(欺诈检测和推荐)等。

Summingbird 的主要设计者 Oscar Boykin、Sam Ritchie(计算机科学界的传奇人物 Dennis Ritchie 的侄子)和 Ashutosh Singhal 进一步透露了该框架的路线图:

  • 支持 Apache Spark 和列式数据存储格式 Parquet
  • 在 Summingbird 的 Producer 原语之上的高层数学库和机器学习代码
  • 相关开源项目(比如 Algebird 和 Storehaus)更深度的集成

查看英文原文: Twitter Open-Sources its MapReduce Streaming Framework Summingbird

2014-01-16 06:1610142
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 149.8 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

@DataJpaTest 进行测试的坑

HoneyMoose

了解“预训练-微调”,看这一篇就够了

博文视点Broadview

SpringBoot 打包发布

jar Linux SpringBoot 2 8月月更

阿里云计算巢软件免费试用中心正式上线,企业用户可免费试用1个月

阿里云弹性计算

计算巢

转转客户端持续交付—鲁班的构建管理

转转技术团队

CI/CD

阿里云视觉智能开放平台产品上新——能力前瞻

夏夜许游

人工智能 阿里云 元宇宙 图像分割 阿里云视觉智能开放平台

活动报名:Tapdata 开源教程之异构数据库模型推演

tapdata

Tapdata 开源社区

Spring Data 测试时的 Repository 提示为空对象

HoneyMoose

nft交易平台开发流程

开源直播系统源码

NFT 数字藏品 数字藏品系统

深势科技创始人&首席科学家张林峰:AI+分子模拟,赋能药物发现新源头

阿里云弹性计算

AI gpu 药物研究 分子模拟

详解GaussDB(DWS) 资源监控

华为云开发者联盟

数据库 后端

视频结构化——原子能力解析

夏夜许游

物体检测 车牌识别 视频结构化 人体检测

微服务面试必问的Dubbo,这么详细还怕自己找不到工作?

浅羽技术

微服务 dubbo 微服务框架 Dubbo服务 8月月更

HMS Core Discovery第17期回顾|音随我动,秒变音色造型师

HarmonyOS SDK

音频技术

Docker下Prometheus和Grafana三部曲之三:自定义监控项开发和配置

程序员欣宸

Grafana Prometheus 8月月更

软件,英特尔人工智能的未来重点布局

科技之家

流程挖掘的价值:头部制造业千万级增长的底牌

望繁信科技

设备健康管理“悬丝诊脉”之能源行业浆液循环泵

PreMaint

设备健康管理 设备预测性维护 设备状态监测

优秀的程序员不能只懂技术

LigaAI

程序人生 敏捷开发 自我提升 职场发展 企业号九月金秋榜

渗透攻防Web篇-深入浅出SQL注入

京东科技开发者

sql 安全 mybatis Web H5

干货|为什么说开源基金会的选择很关键?(上)

Orillusion

开源 WebGL 渲染引擎 webgpu web3d

有人相爱,有人年少财务自由,有人数据结构都背不出来

浅羽技术

Java 数据结构 队列 红黑树 8月月更

再深一点:如何给女朋友解释什么是微服务?

浅羽技术

微服务 微服务架构 单体架构 微服务框架 8月月更

iofod - 新拟物设计的跨平台实践

iofod jude

项目经理的职能在Scrum框架下没有完全消失

ShineScrum

Scrum 敏捷 项目经理

云原生(二十六) | Kubernetes篇之Kubernetes(k8s)持久化

Lansonli

云原生 k8s 8月月更

FFmpeg打开输入文件

mei2022

8月月更

超简单!Redis中的持久化策略汇总

知识浅谈

8月月更

最长字符串链,什么是“词链”?

掘金安东尼

算法 前端 8月月更

[极致用户体验] 如何实现响应式canvas?保持canvas比例?教你让canvas自适应屏幕宽度!

HullQin

CSS JavaScript html 前端 8月月更

🔛报名启动!「数智创新行」系列城市站沙龙首站开启

云桌派

Twitter开源了其流处理框架Summingbird_大数据_Michael Hausenblas_InfoQ精选文章