Beam晋升Apache顶级项目_大数据_Dylan Raithel

FCon7折倒计时最后一周：日程已上线70%！查看详情>>> 了解详情 



 写点什么

Beam 最近成功地晋升为 Apache 软件基金会的顶级项目，Beam 的目标包括使用灵活的高层及数据流处理不限时间、无序、全球规模的数据。Beam 最初是由 Google 内部项目创建，随后被捐献给了 Apache ，并于 2016 年 2 月开始一直孵化到当年年底。Beam 项目寻求针对流式和批处理任务创建一个统一编程模型，并且产生可以被许多已经支持的数据处理引擎消费的组件。Beam 寻求：

为世界提供一个易用的、强大的数据并行处理模型，支持包括流式和批处理，灵活地在各种实时平台之间工作。Beam SDKs 使用相同的类展现有限和无限数据，并且基于这些数据至上做相同的转换操作。

Java 和 Python 的 SDK 支持提供了选择的后台处理引擎和处理管道组件之间的抽象层。支持的处理引擎包括 Apache Apex 、 Flink 、 Spark 以及 Google Cloud Dataflow 引擎。

Beam 管道的编程模型包括 PCollection(s)、Transform(s) 和 Pipeline I/O，以及每个支持处理引擎的 Runners，对于本地 DirectRunner 不作为默认的 Beam：

Pipeline
PCollection
Core SDK transform objects ParDo 、 GroupByKey 、 Combine 、 Flatten 、 Partition
Source / Sink Pipeline I/O
DirectRunner 、 DataflowRunner 、 SparkRunner 、 FlinkRunner 以及 ApexRunner

Google 开源 Beam 的动机是作为新兴商业业务的一部分，用以支持集成，同时贡献给其他开源项目。基本想法是这样做可以增加Beam 的潜在使用几率，深层次是想要提升Google Dataflow平台的曝光度，深层次原因是因为Beamd 的出现会提升已经支持的处理引擎。Google 在Spark 和Beam 之间进行了比较，注明Beam 模型由于它专注于流式和批量数据处理，所以Beam 是正确的模型选择，并且通过启用事件时间窗口（Event-Time Windowing）、水印（Watermark）、触发（Trigger）特性等证明了语义重要性。开源社区和数据科学产业还不能独立于Google 进行数据验证，并且应该围绕系统架构和基准使用更多的用例分析。早期迹象显示Beam 社区正在不断发展，并且围绕支持多个处理平台也有积极的反馈。

查看英文原文： Beam Graduates to Top-Level Apache Project

感谢刘志勇对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ， @丁晓昀），微信（微信号： InfoQChina ）关注我们。

发布

暂无评论

扫码添加小助手
领取最新资料包

创作场景

Beam 晋升 Apache 顶级项目

评论

软件测试——网络协议知识（二）

MySQL为Null会导致5个问题，个个致命！

RPC Demo（二）基于 Zookeeper 的服务发现

写出一手烂代码的19条准则

CKLC挖矿矿机系统开发案例介绍

分享一个普通程序员的“沪漂”六年的历程以及感想

爆赞！P8架构师总结29篇多线程与高并发+设计模式核心笔记

LeetCode题解：239. 滑动窗口最大值，二叉堆，JavaScript，详细注释

Java中的常量

母鸡下蛋实例：多线程通信生产者和消费者wait/notify和condition/await/signal条件队列

Spring cloud Gateway（二）一个Http请求的流程解析

技术干货 | 六分钟学会使用 HBuilder 引入构建 mPaaS 小程序

SpringCloudGateway(一) 概览

IPFS云算力挖矿系统开发详解案例及源码

NoahTenet诺亚信条软件系统APP开发

重新发现科技与人文的互动

智慧社区综合应用平台搭建，社区管理解决方案

5G与4G的差别及应用

测开之函数进阶· 第6篇《闭包》

通达同城快递设计方案

跨年巨作！13万字！腾讯高工纯手写“JDK源码笔记”直接带你飙向实战

如何使用mock应对测试所需随机数据

为了搞清楚类加载，竟然手撸JVM！

公安警务报警系统，二维码一键定位报警

令数字起舞，让自然微笑：TECH4ALL的2020启示录

实用流程工具，浅析LR.NET配置型工作流引擎

阿里面试：Mybatis中方法和SQL是怎么关联起来的呢？

Java多线程编程核心技术

IPFS分布式存储矿机系统APP软件开发

AAAI 2021论文：利用深度元学习对城市销量进行预测（附论文下载）

送你一份迷你书，全面了解如何做好大促技术备战

创作场景

Beam 晋升 Apache 顶级项目

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载