写点什么

大数据周报第 8 期:Apache Beam 将统一大数据平台的开发

  • 2016-05-09
  • 本文字数:789 字

    阅读完需:约 3 分钟

开源新闻:

  1. AirFlow 加入 Apache 孵化器
    AirFlow 加入 Apache 孵化器工程。AirFlow 是一个工作流和调度系统,用来管理数据管道。由 AirBnb 开发并在内部使用,于去年九月份开源。
  2. Apache Apex 成为 Apache 顶级项目
    Apache Apex 是基于 Hadoop 的流处理和批处理引擎,目前成为 Apache 顶级项目。
  3. Apache Beam 将统一大数据平台的开发
    Apache Beam 将统一大数据平台的开发。一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark 和 Flink 等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在 Beam 的统一下可以实现写一个程序既能在 Hadoop 中运行又可在 Spark 中运行。
  4. 开源项目:Spark 分布式训练深度神经网络
    用 Spark 分布式训练深度神经网络,可直接在已有 Spark 集群上安装,简单易学习。

实践:

  1. 基于 Storm 和 Morphlines 一体化实现实时清洗
    使用 Storm 做实时数据清洗(ETL),从数据 Arriving 到数据 Serving 一体化 (Topology) 解决。数据格式转换可以借助 kitesdk morphlines 来配置完成。
  2. Netflix 的数据管道演化系列》(1)、《 Netflix 的数据管道演化系列》(2)
    Netflix 的数据管道演化,从 Chukwa 管道到 Kafka 管道。并详细介绍 Kafka 管道架构技术,包括 Kafka 数据管道的设计原则、云服务中运行的挑战、发布策略、Kafka 容灾和 Kafka 监控等。
  3. Qsquery 支持 Syslog 和 Amazon Kinesis
    Qsquery 是 Facebook 开源的一款支持 SQL 查询系统的各项指标,可以用于 OSX 和 Linux 操作系统,它使得底层操作系统分析和监控性能更加直观。Airbnb 工程师开发插件支持 Syslog 收集,并把查询结果发送到 Amazon Kinesis Streams & Kinesis Firehose。

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-05-09 19:007141
用户头像

发布了 43 篇内容, 共 31.4 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

重来:更为简单有效的商业逻辑

张老蔫

28天写作

加快数字化发展 建设数字中国

CECBC

大数据

什么是 Git? - 探索分布式版本控制工具

码界行者

git DevOps

最高法两会报告聚焦区块链惩治抄袭,区块链在保护网络著作权方面如何作为?

CECBC

法律

结合融云 WebSDK 了解 WebSocket 基本原理

融云 RongCloud

融云 Web 播放声音(AMR 、WAVE)

融云 RongCloud

有感于最近的一些事件

ES_her0

28天写作 3月日更

Apache Pulsar在能源互联网领域的落地实践

Apache Pulsar

大数据 开源 Apache Pulsar 消息系统 工业物联网

大作业用例

产品经理训练营

集成融云小程序 SDK 遇到的问题

融云 RongCloud

融云发送语音消息

融云 RongCloud

融云 Web 播放声音 — Flash 篇 (播放 AMR、WAV)

融云 RongCloud

中关村软件园与百度飞桨启动AI人才培养计划:AI发展,人才先行

百度大脑

人工智能 百度 人才培养

图片社区类APP增加评论表情包功能

🙈🙈🙈

极客大学产品经理训练营

融云 AMR(Aduio) 播放 AMR 格式 Base64 码音频

融云 RongCloud

SDK 兼容 JSON

融云 RongCloud

产品经理训练营——大作业

产品经理训练营

越过山丘,遇见更美的风景

boshi

创业 七日更

使用融云 Web SDK 撤回消息

融云 RongCloud

集成融云 Web 音视频通话踩坑之旅

融云 RongCloud

融云 IM 那些事儿

融云 RongCloud

集成融云 IM 问题总结

融云 RongCloud

(28DW-S8-Day25) 用流程重新定义职位

mtfelix

28天写作

《MySQL》系列 - 小胖要的 MySQL 索引详解(附 20 张图解)

一个优秀的废人

Java MySQL 数据库 索引 B+树

领域驱动设计101 -领域、知识、组织结构及模型

luojiahu

领域驱动设计

通过融云 WebSDK 简单了解 WebSocket

融云 RongCloud

区块链如何走向云端?

CECBC

云技术

融云 CallLib 集成遇到的问题

融云 RongCloud

作业5-待完成

YING꯭YING

融云 IM SDK 发送语音消息

融云 RongCloud

融云 Web SDK 如何实现只有一个设备登入

融云 RongCloud

大数据周报第8期:Apache Beam将统一大数据平台的开发_大数据_侠天_InfoQ精选文章