2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

大数据周报第 8 期:Apache Beam 将统一大数据平台的开发

  • 2016-05-09
  • 本文字数:789 字

    阅读完需:约 3 分钟

开源新闻:

  1. AirFlow 加入 Apache 孵化器
    AirFlow 加入 Apache 孵化器工程。AirFlow 是一个工作流和调度系统,用来管理数据管道。由 AirBnb 开发并在内部使用,于去年九月份开源。
  2. Apache Apex 成为 Apache 顶级项目
    Apache Apex 是基于 Hadoop 的流处理和批处理引擎,目前成为 Apache 顶级项目。
  3. Apache Beam 将统一大数据平台的开发
    Apache Beam 将统一大数据平台的开发。一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark 和 Flink 等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在 Beam 的统一下可以实现写一个程序既能在 Hadoop 中运行又可在 Spark 中运行。
  4. 开源项目:Spark 分布式训练深度神经网络
    用 Spark 分布式训练深度神经网络,可直接在已有 Spark 集群上安装,简单易学习。

实践:

  1. 基于 Storm 和 Morphlines 一体化实现实时清洗
    使用 Storm 做实时数据清洗(ETL),从数据 Arriving 到数据 Serving 一体化 (Topology) 解决。数据格式转换可以借助 kitesdk morphlines 来配置完成。
  2. Netflix 的数据管道演化系列》(1)、《 Netflix 的数据管道演化系列》(2)
    Netflix 的数据管道演化,从 Chukwa 管道到 Kafka 管道。并详细介绍 Kafka 管道架构技术,包括 Kafka 数据管道的设计原则、云服务中运行的挑战、发布策略、Kafka 容灾和 Kafka 监控等。
  3. Qsquery 支持 Syslog 和 Amazon Kinesis
    Qsquery 是 Facebook 开源的一款支持 SQL 查询系统的各项指标,可以用于 OSX 和 Linux 操作系统,它使得底层操作系统分析和监控性能更加直观。Airbnb 工程师开发插件支持 Syslog 收集,并把查询结果发送到 Amazon Kinesis Streams & Kinesis Firehose。

感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-05-09 19:007133
用户头像

发布了 43 篇内容, 共 31.4 次阅读, 收获喜欢 7 次。

关注

评论

发布
暂无评论
发现更多内容

如何用 Dify 无代码工作流实现 AI 自动化抓取与分析 LinkedIn 招聘数据

猫头虎

MCP MCP Server MCP Server开发平台

怎样利用YashanDB数据库构建智能数据分析系统

数据库砖家

定期维护YashanDB数据库保障数据安全与稳定的技术方法分析

数据库砖家

借助YashanDB数据库推进企业数字化转型的技术分析

数据库砖家

精准、高效、规范:烟草专卖执法案卷评查系统为烟草行业提质增效

中烟创新

利用YashanDB数据库实现业务流程自动化管理

数据库砖家

AI 英语写作APP的开发

北京木奇科技有限公司

AI技术开发 软件外包公司 AI英语

低代码“抄送”实操指南,信息同步与追溯全攻略,建议收藏!

引迈信息

爆款游戏背后:尚娱如何借助阿里云 Kafka Serverless 轻松驾驭“潮汐流量”?

阿里巴巴云原生

kafka 阿里云 Serverless 云原生

在YashanDB数据库中实现数据完整性的方法

数据库砖家

掌握YashanDB数据库的查询优化技术,提高查询效率

数据库砖家

实现YashanDB数据库的灾备体系构建和测试指南

数据库砖家

域名SSL证书和IP SSL证书有什么区别?选择哪个好?

防火墙后吃泡面

AI 英语写作APP的开发

北京木奇科技有限公司

软件外包公司 AI英语学习 AI英语写作

如何在手机上把CAD图纸导出为PDF?

在路上

cad CAD看图王

OPERA&CST软件联合仿真汽车无线充电站对人体的影响

思茂信息

cst cst操作 cst电磁仿真 CST软件 CST Studio Suite

在饱和市场中,选择YashanDB数据库的竞争优势

数据库砖家

哈尔滨企业等保测评实操指南:从准备到落地的全流程要点

等保测评

怎样做安全配置YashanDB数据库防止数据泄露风险?

数据库砖家

怎样做利用YashanDB数据库构建企业级数据安全体系?

数据库砖家

利用YashanDB数据库构建智能业务数据仓库的技术分析

数据库砖家

版本速递 | 华为云Versatile智能体平台 新增特性介绍(2025年9月发布)

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 华为云Versatile

在YashanDB中实现数据分区,提高查询速度

数据库砖家

利用YashanDB数据库提升大规模数据处理能力

数据库砖家

点量“云电脑”助力教培企业,实现核心资产安全与云端协同

点量实时云渲染

教育培训 远程系统 协同办公系统 #云计算 #私有云

在YashanDB数据库中实现数据治理的有效路径

数据库砖家

利用YashanDB数据库提高企业业务系统稳定性的技术指南

数据库砖家

怎样做配置YashanDB数据库实现自动化运维管理?

数据库砖家

实现YashanDB数据库多节点高可用系统搭建技术分析

数据库砖家

实现YashanDB数据库多租户环境下的数据隔离

数据库砖家

大数据周报第8期:Apache Beam将统一大数据平台的开发_大数据_侠天_InfoQ精选文章