写点什么

Twitter 开源了其流处理框架 Summingbird

  • 2014-01-16
  • 本文字数:907 字

    阅读完需:约 3 分钟

Twitter开源了其MapReduce 流处理框架 Summingbird 。Summingbird 是一个大规模数据处理系统,支持开发者以批处理模式(基于 Hadoop/MapReduce)或流处理模式(基于 Storm )或混合模式(即组合前两种模式)以统一的方式执行代码。它基于 Apache 2 许可发布。

现在的软件栈需要手工集成 MapReduce (Pig/Scalding) 和基于流(Storm)的代码,为了处理 5 亿的 Tweet 并能持续成长,Twitter 必须寻找一个替代品。关于创建 Summingbird 的主要动机,Twitter 的工程师提到,在于他们意识到,由于以下原因,在 Storm 上运行一个完全实时的系统非常困难:

  • 要重新计算数月的历史日志,必须与 Hadoop 进行协作,或者是通过某种定制的日志加载机制形成通过 Storm 的流。
  • Storm 专注的是消息传递,随机写入数据库很难维护。

正是这一洞见推动了 Summingbird 这一灵活而通用的方案的出现,它用于解决工程师使用现有方法遇到的实际问题:

  • 两个不同系统中的两组聚合逻辑必须保持同步
  • 在每个系统和客户端之间,键和值必须一致地进行序列化
  • 客户端要负责从两个数据存储读取数据、执行最后的聚合并提供合并结果

Summingbird 也是第一批可以公开获得的 Lambda 架构兼容系统中的一个。类似的项目包括Yahoo 的 Storm-YARN 和一家西班牙创业公司即将发布的 Lambdoop 。Lambdoop 是一个 Java 框架,用于以与 Lambda 架构一致的方式开发大数据应用。Lambda 架构的特色是有一个不可修改、只能追加数据的主数据库,并组合了批处理、服务和加速等不同的层。这些特色支持开发者构建健壮的、可以进行批处理和流处理的大规模数据处理系统,其使用案例涉及从物联网(智能城市、可穿戴设备和制造业)之上的社交媒体平台(比如 Twitter、LinkedIn 等)到金融行业(欺诈检测和推荐)等。

Summingbird 的主要设计者 Oscar Boykin、Sam Ritchie(计算机科学界的传奇人物 Dennis Ritchie 的侄子)和 Ashutosh Singhal 进一步透露了该框架的路线图:

  • 支持 Apache Spark 和列式数据存储格式 Parquet
  • 在 Summingbird 的 Producer 原语之上的高层数学库和机器学习代码
  • 相关开源项目(比如 Algebird 和 Storehaus)更深度的集成

查看英文原文: Twitter Open-Sources its MapReduce Streaming Framework Summingbird

2014-01-16 06:1610050
用户头像
臧秀涛 略懂技术的运营同学。

发布了 300 篇内容, 共 146.6 次阅读, 收获喜欢 35 次。

关注

评论

发布
暂无评论
发现更多内容

BOE(京东方)携MLED新品及创新商显应用亮相2024美国InfoComm 以卓越创新实力打造科技盛宴

爱极客侠

淘宝商品详情API接口:商品属性深度挖掘,助力精准营销

技术冰糖葫芦

API Explorer API 安全 API 文档 pinduoduo API

如何轻松利用人工智能深度学习,提升半导体制造过程中的良率预测?

Altair RapidMiner

人工智能 深度学习 数据分析

实时数据的处理一致性如何保证?

不在线第一只蜗牛

数据处理 实时数据

七个备受欢迎的IntelliJ IDEA实用插件

伤感汤姆布利柏

字节面试:MySQL自增ID用完会怎样?

王磊

Java 面试

塑造财务规划团队的未来角色

智达方通

企业管理 全面预算管理 财务管理 财务规划

AI赋能数据安全体系化落地,出席网安标委2024年第一次标准周“数据安全标准与能力建设研讨会”

百度安全

以太网交换机堆叠和级联的区别

Ogcloud

交换机 网络交换机 交换机配置

从游戏到实体《云上的中国3》深度解读网易伏羲的AI技术应用探索

新消费日报

终端中的 Kubernetes 集群管理——K9s

伤感汤姆布利柏

「小爱同学」接入豆包大模型;华为鸿蒙 OS 成为中国第二大操作系统丨 RTE 开发者日报 Vol.224

声网

详解Spring Boot的RedisAutoConfiguration配置

华为云开发者联盟

Java Spring Boot 华为云 华为云开发者联盟 企业号2024年6月PK榜

容器网络实现(下):为容器插上”网线“

不在线第一只蜗牛

Docker 容器

GPT-4o更容易越狱?北航&南洋理工上万次测试给出详细分析

Openlab_cosmoplat

到手仅899元!紫光闪存UNIS S2 Ultra 2TB京东开启预售

新消费日报

Spring Security 如何防止点击劫持

江南一点雨

10W大奖等你瓜分,OpenTiny CCF开源创新大赛报名火热启动!

OpenTiny社区

Vue 低代码 组件库 OpenTiny TinyEngine

直播预告!经管科研范式变革下的工具与实践 | 和鲸“101数智领航计划”

ModelWhale

人工智能 数据 经管

MQTTX 1.9.10 发布:升级 Faker.js、增强连接与订阅诊断、优化 UI

EMQ映云科技

mqtt

Twitter开源了其流处理框架Summingbird_大数据_Michael Hausenblas_InfoQ精选文章