AICon 深圳站聚焦 Agent 技术、应用与生态,大咖分享实战干货 了解详情
写点什么

大数据周报第 8 期:Apache Beam 将统一大数据平台的开发

  • 2016-05-09
  • 本文字数:789 字

    阅读完需:约 3 分钟

开源新闻:

  1. AirFlow 加入 Apache 孵化器
    AirFlow 加入 Apache 孵化器工程。AirFlow 是一个工作流和调度系统,用来管理数据管道。由 AirBnb 开发并在内部使用,于去年九月份开源。
  2. Apache Apex 成为 Apache 顶级项目
    Apache Apex 是基于 Hadoop 的流处理和批处理引擎,目前成为 Apache 顶级项目。
  3. Apache Beam 将统一大数据平台的开发
    Apache Beam 将统一大数据平台的开发。一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark 和 Flink 等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在 Beam 的统一下可以实现写一个程序既能在 Hadoop 中运行又可在 Spark 中运行。
  4. 开源项目:Spark 分布式训练深度神经网络
    用 Spark 分布式训练深度神经网络,可直接在已有 Spark 集群上安装,简单易学习。

实践:

  1. 基于 Storm 和 Morphlines 一体化实现实时清洗
    使用 Storm 做实时数据清洗(ETL),从数据 Arriving 到数据 Serving 一体化 (Topology) 解决。数据格式转换可以借助 kitesdk morphlines 来配置完成。
  2. Netflix 的数据管道演化系列》(1)、《 Netflix 的数据管道演化系列》(2)
    Netflix 的数据管道演化,从 Chukwa 管道到 Kafka 管道。并详细介绍 Kafka 管道架构技术,包括 Kafka 数据管道的设计原则、云服务中运行的挑战、发布策略、Kafka 容灾和 Kafka 监控等。
  3. Qsquery 支持 Syslog 和 Amazon Kinesis
    Qsquery 是 Facebook 开源的一款支持 SQL 查询系统的各项指标,可以用于 OSX 和 Linux 操作系统,它使得底层操作系统分析和监控性能更加直观。Airbnb 工程师开发插件支持 Syslog 收集,并把查询结果发送到 Amazon Kinesis Streams & Kinesis Firehose。

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-05-09 19:006968
用户头像

发布了 43 篇内容, 共 30.5 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

20 k8s之持久性存储卷

穿过生命散发芬芳

k8s 11月日更

架构训练营 - 模块 4 作业

焦龙

架构实战营

Apache Pulsar 与 Kafka 性能比较:延迟性(测试方法)

Apache Pulsar

大数据 kafka 分布式 云原生 Apache Pulsar

聊聊你眼中的spring的事务是怎么样的?

卢卡多多

spring事务管理 11月日更

JavaScript 数组方法 slice() 的 5 个示例

devpoint

slice JavaScrip 11月日更

一些关于原宇宙的思考

Simon

元宇宙 Metaverse

DDD是软件设计思维方式的转变

Bruce Talk

领域驱动设计 DDD

【解析】通证经济的分类及用途

CECBC

30分钟学习go语言

坚果

Go 语言 11月日更

SAP OData 编程指南

汪子熙

API SAP OData 11月日更

linux远程复制文件命令小总结

入门小站

Linux

kafka常用命令

williamcai

kafka

模块五作业

沐风

工作三原则

ok绷

千万级学生管理系统的考试试卷存储方案设计

波波

「架构实战营」

和12岁小同志搞创客开发:手撕代码,做一款亮度可调节灯

不脱发的程序猿

少儿编程 DIY 智能硬件 创客开发 Arduino

世界女性科技群落(一):一面喑哑、一面高亢的非洲鼓

脑极体

在线等差数列求和计算器

入门小站

工具

如何用JavaScript实现add(1)(2)(3)

空城机

JavaScript 11月日更

使用 Java connector 消费 ABAP 系统的函数

汪子熙

Java SAP abap 11月日更

财经大课:通货膨胀的逻辑

石云升

学习笔记 财经思维 11月日更

模块五作业

bob

「架构实战营」

Vue进阶(贰零壹):JS合并两个数组方法详解

No Silver Bullet

Vue 数组 11月日更

区块链是什么

Rayjun

区块链

[Pulsar] 使用Partitioned Topic提高吞吐

Zike Yang

Apache Pulsar 11月日更

模块四作业

doublechun

「架构实战营」

模块四作业

覃飞

CentOS环境下Redis的安装和配置

Empty

redis

区块链新闻编辑部成立,看区块链如何助力新闻传播?

CECBC

区块链,不是元宇宙的全部

CECBC

.NET6新东西--struct优化

喵叔

11月日更

大数据周报第8期:Apache Beam将统一大数据平台的开发_大数据_侠天_InfoQ精选文章