写点什么

大数据周报第 8 期:Apache Beam 将统一大数据平台的开发

  • 2016-05-09
  • 本文字数:789 字

    阅读完需:约 3 分钟

开源新闻:

  1. AirFlow 加入 Apache 孵化器
    AirFlow 加入 Apache 孵化器工程。AirFlow 是一个工作流和调度系统,用来管理数据管道。由 AirBnb 开发并在内部使用,于去年九月份开源。
  2. Apache Apex 成为 Apache 顶级项目
    Apache Apex 是基于 Hadoop 的流处理和批处理引擎,目前成为 Apache 顶级项目。
  3. Apache Beam 将统一大数据平台的开发
    Apache Beam 将统一大数据平台的开发。一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark 和 Flink 等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在 Beam 的统一下可以实现写一个程序既能在 Hadoop 中运行又可在 Spark 中运行。
  4. 开源项目:Spark 分布式训练深度神经网络
    用 Spark 分布式训练深度神经网络,可直接在已有 Spark 集群上安装,简单易学习。

实践:

  1. 基于 Storm 和 Morphlines 一体化实现实时清洗
    使用 Storm 做实时数据清洗(ETL),从数据 Arriving 到数据 Serving 一体化 (Topology) 解决。数据格式转换可以借助 kitesdk morphlines 来配置完成。
  2. Netflix 的数据管道演化系列》(1)、《 Netflix 的数据管道演化系列》(2)
    Netflix 的数据管道演化,从 Chukwa 管道到 Kafka 管道。并详细介绍 Kafka 管道架构技术,包括 Kafka 数据管道的设计原则、云服务中运行的挑战、发布策略、Kafka 容灾和 Kafka 监控等。
  3. Qsquery 支持 Syslog 和 Amazon Kinesis
    Qsquery 是 Facebook 开源的一款支持 SQL 查询系统的各项指标,可以用于 OSX 和 Linux 操作系统,它使得底层操作系统分析和监控性能更加直观。Airbnb 工程师开发插件支持 Syslog 收集,并把查询结果发送到 Amazon Kinesis Streams & Kinesis Firehose。

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-05-09 19:006902
用户头像

发布了 43 篇内容, 共 30.2 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

YashanDB|UNDO 表空间持续增长怎么处理?一文教你排查+优化

数据库砖家

数据库

YashanDB 知识库|MySQL 迁移后 CHAR 字段多出空格?问题可能出在这里

数据库砖家

数据库

Arthas jad(字节码文件反编译成源代码 )

刘大猫

监控 Arthas 监控工具 jad 字节码文件

jd 商品评论Api接口 全解析指南

代码忍者

个人评论 JD

HTTP接口数据也能定时同步入湖?用DolphinScheduler×SeaTunnel快速搞定!

白鲸开源

大数据 开源 Apache DolphinScheduler 任务调度

英特尔以系统级代工模式促进生态协同,助力客户创新

E科讯

《算法导论(第4版)》阅读笔记:p11-p13

codists

算法

自研时序大模型讲解(4月29日)直播回顾

Apache IoTDB

当AI智能体通过稳定币自主交易和结算,如何利好DeCloud?

PowerVerse

AI 加密 去中心化 稳定币 DeCloud

YashanDB 知识库|MySQL 的 GROUP BY 语句迁移到崖山时报错?原来是这个规范不同!

数据库砖家

数据库

YashanDB 知识库|如何判断表空间是否启用了加密?

数据库砖家

数据库

探索如何提升自动化测试的效率--代码评审和脚本生成

夏兮。

AI 自动化测试 端到端测试新范式

YashanDB|崖山共享集群(YAC):从怀疑到认可,技术细节决定产品成色

数据库砖家

数据库

区块链内容创作全攻略:海报、白皮书与视频的视觉化革命

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

YashanDB|Kettle 同步大表报错 “无法创建 Java 虚拟机”?别忘了调整内存

数据库砖家

数据库

公链钱包开发:技术逻辑与产品设计实践

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 代币开发 交易所开发公链开发

AI 大赛丨总奖池 50 万元!「1000 AIdea 应用计划」等你来战!

声网

智源研究院发布开源中文互联网语料库CCI 4.0 新增高质量英文数据与合成数据

智源研究院

英特尔持续推进核心制程和先进封装技术创新,分享最新进展

E科讯

DApp开发:开启去中心化应用新时代

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

YashanDB|使用 Kettle 同步 PostgreSQL 数据时报错:pg_hba.conf 无法识别连接?

数据库砖家

数据库

【AI】DeepWiki 页面转换成 Markdown 保存 - Chrome 扩展

非晓为骁

chrome AI DeepWiki Extension

提升研发运维效能:Pacvue 泊客电商的 GenAI 技术实践

亚马逊云科技 (Amazon Web Services)

LED虚拟生产:革新影视制作的新技术

Dylan

虚拟 LED LED display LED显示屏 LED屏幕

DeFi开发系统软件开发:技术架构与生态重构

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

智源研究院发布开源中文互联网语料库CCI 4.0 新增高质量英文数据与合成数据

智源研究院

Mint Blockchain 与 Chainlink 达成战略合作:赋能跨链创新

NFT Research

blockchain web3

YashanDB|select 0.00 的返回类型居然变了?警惕 JDBC 下的类型映射差异!

数据库砖家

数据库

Java 字符串拼接性能实测:基于 JMH 的微基准测试

歆晨技术笔记

黑龙江密码测评你需要知道的基本知识

黑龙江陆陆信息测评部

最新版LangChain4j发布!终于修复了这个恶心的问题

王磊

大数据周报第8期:Apache Beam将统一大数据平台的开发_大数据_侠天_InfoQ精选文章