写点什么

大数据周报第 8 期:Apache Beam 将统一大数据平台的开发

  • 2016-05-09
  • 本文字数:789 字

    阅读完需:约 3 分钟

开源新闻:

  1. AirFlow 加入 Apache 孵化器
    AirFlow 加入 Apache 孵化器工程。AirFlow 是一个工作流和调度系统,用来管理数据管道。由 AirBnb 开发并在内部使用,于去年九月份开源。
  2. Apache Apex 成为 Apache 顶级项目
    Apache Apex 是基于 Hadoop 的流处理和批处理引擎,目前成为 Apache 顶级项目。
  3. Apache Beam 将统一大数据平台的开发
    Apache Beam 将统一大数据平台的开发。一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark 和 Flink 等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在 Beam 的统一下可以实现写一个程序既能在 Hadoop 中运行又可在 Spark 中运行。
  4. 开源项目:Spark 分布式训练深度神经网络
    用 Spark 分布式训练深度神经网络,可直接在已有 Spark 集群上安装,简单易学习。

实践:

  1. 基于 Storm 和 Morphlines 一体化实现实时清洗
    使用 Storm 做实时数据清洗(ETL),从数据 Arriving 到数据 Serving 一体化 (Topology) 解决。数据格式转换可以借助 kitesdk morphlines 来配置完成。
  2. Netflix 的数据管道演化系列》(1)、《 Netflix 的数据管道演化系列》(2)
    Netflix 的数据管道演化,从 Chukwa 管道到 Kafka 管道。并详细介绍 Kafka 管道架构技术,包括 Kafka 数据管道的设计原则、云服务中运行的挑战、发布策略、Kafka 容灾和 Kafka 监控等。
  3. Qsquery 支持 Syslog 和 Amazon Kinesis
    Qsquery 是 Facebook 开源的一款支持 SQL 查询系统的各项指标,可以用于 OSX 和 Linux 操作系统,它使得底层操作系统分析和监控性能更加直观。Airbnb 工程师开发插件支持 Syslog 收集,并把查询结果发送到 Amazon Kinesis Streams & Kinesis Firehose。

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-05-09 19:007118
用户头像

发布了 43 篇内容, 共 31.3 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

我们团队来了一位新同事,主动要求帮忙敲代码!欢迎 AI 001号

阿里云云效

阿里云 云原生 通义灵码

一招MAX降低10倍,现在它是我的了| 京东到家门店系统OHC本地缓存优化实战

京东零售技术

后端 本地缓存 企业号 5 月 PK 榜

鸿蒙HarmonyOS实战-ArkUI组件(Navigation)

蜀道山

鸿蒙 HarmonyOS 组件 鸿蒙系统 鸿蒙 Ability

鸿蒙HarmonyOS实战-ArkUI组件(Tabs)

蜀道山

鸿蒙 架构 HarmonyOS 鸿蒙系统 ArKUI 3.0

谷歌确认:链接并不那么重要

九凌网络

使用 jps 命令查看Java进程

带双筷子🥢去旅行

Java虚拟机

企业号 5月 PK 榜,火热开启!

InfoQ写作社区官方

热门活动 企业号2024年5月PK榜

基于云制造的智能工厂简单介绍

inBuilder低代码平台

人工智能 智能工厂

部署 LangServe 应用到 AWS

Jade@pluto-lang

AI AWS 教程 langchain Pluto

一款自研的热门AI产品-帝阅DeepRead

Baird

AI 产品开发 大模型

Richard 林旅强:说说社区的故事和对 RTE 社区的畅想

RTE开发者社区

产品需求文档怎么写?超详细的PRD模板来了!

彭宏豪95

项目管理 产品经理 在线白板 产品需求文档 效率软件

通义灵码入职阿里云后,同事们的工作发生了哪些改变?

阿里巴巴云原生

阿里云 云原生 通义灵码

RAG 修炼手册|揭秘 RAG 时代的新向量数据库

Zilliz

Zilliz 向量数据库 rag

利用淘宝商品详情数据接口创新品牌推广方案

tbapi

淘宝商品详情数据接口

有了这么多套件,为什么还需要APaaS

明道云

深入剖析 Java 类属性与类方法的应用

伤感汤姆布利柏

ETL工具怎么实现多流SQL实时运算?

谷云科技RestCloud

sql ETL 数据集成

通义灵码入职阿里云后,同事们的工作发生了哪些改变?

阿里云云效

阿里云 云原生 通义灵码

开源之夏 Apache StreamPipes 提交 IoTDB 集成项目,速来报名!

Apache IoTDB

我们团队来了一位新同事,主动要求帮忙敲代码!欢迎 AI 001号

阿里巴巴云原生

阿里云 云原生 通义灵码

使用 jstat 命令查看内存使用,监控 Java 应用性能

带双筷子🥢去旅行

Java虚拟机 #java

大数据周报第8期:Apache Beam将统一大数据平台的开发_大数据_侠天_InfoQ精选文章