最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

谷歌开源 Cloud Dataflow Java SDK

  • 2014-12-21
  • 本文字数:768 字

    阅读完需:约 3 分钟

今年早些时候,谷歌宣布了 Cloud Dataflow ,一个批量或实时处理海量数据的服务和 SDK。现在,他们开源了 Dataflow Java SDK ,使开发人员可以看到它的实现方式,并合理使用该 SDK 开发运行在本地或其它云上的服务。

Dataflow 是一项云服务,使用了由 FlumeJava MillWheel 演变而来的技术,前者是一个用于创建数据并行管道的 Java 库,后者是一个用于构建容错流处理应用的框架,在谷歌内部有数百名开发人员在使用它们。Dataflow 是语言无关的,但谷歌提供了一个 Java SDK,使开发人员为它创建应用更简单。

管道是Dataflow 使用的一个关键概念,它由一组“读取输入数据源、转换数据、输出结果的操作”组成。数据组织在大小有限或无限的集合中,并提交给多个“转换(transformations)”,由它们执行计算,即操作输入集合、生成输出集合。“管道执行器(pipeline runner)”是管道的执行环境。该SDK 提供了三种类型的执行器:用于本地计算机的 DirectPipelineRunner ,用于谷歌云平台的 DataflowPipelineRunner ,还有同样用于谷歌云的 BlockingDataflowPipelineRunner ,但它会在执行状态中打印日志消息。

管道可以很简单,转换一个接一个地线性执行,或者也可以是一个复杂的有向图,转换路径先分支后合并。一个管道不能与另一个管道共享数据或转换。管道异步执行,而且为了优化整个处理过程的效率,数据流服务可以决定部分转换的执行顺序。

Dataflow 应用可以部署在谷歌云平台上,后者可以提供所需的所有基础设施,其中包括提供运行代码的虚拟机、数据存储或者用于数据处理的 BigQuery 机制。但开发人员也可以将这些应用部署在不同的执行环境中,既可以在本地,也可以在其它云上,只要创建了相同的服务即可。

Dataflow SDK 中包含了示例。谷歌已经创建了一个 Stack Overflow 标签来回答开发人员的问题。

查看英文原文:**** Google Open Sources Cloud Dataflow Java SDK

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-12-21 08:213470
用户头像

发布了 1008 篇内容, 共 374.1 次阅读, 收获喜欢 340 次。

关注

评论

发布
暂无评论
发现更多内容

写给想做程序员的半吊子应届毕业生们

北游学Java

Java Python 求职 秋招

6月2日,讲一个鸿蒙的故事

这不科技

华为 鸿蒙

🔎【Java 源码探索】深入浅出的分析HashMap(JDK7)

洛神灬殇

Java hashmap 6月日更 JDK7

渣本毕业两年经验,精心整理

欢喜学安卓

android 程序员 面试 移动开发

基于 BDD 理论的 Nebula 集成测试框架重构(上篇)

NebulaGraph

【LeetCode】你能在你最喜欢的那天吃到你最喜欢的糖果吗?Java题解

Albert

算法 LeetCode 6月日更

架构实战营模块5作业

eoeoeo

架构实战营

Qcon大会百度智能云出招,AI-Native云计算架服务企业融合创新

百度大脑

人工智能 云计算 Qcon

5分钟速读之Rust权威指南(十五)

wzx

rust

奇亚Chia挖矿系统开发方案丨奇亚Chia挖矿源码功能

系统开发咨询1357O98O718

Tapdata 实时数据融合平台解决方案(二):理解数据中台

tapdata

oracle mongodb

我的树莓派居然偷偷的学会了日语

IT蜗壳-Tango

IT蜗壳教学 6月日更

【Apache BookKeeper】 概念与架构

awen

Apache 分布式存储 bookKeeper

AT智能量化炒币机器人系统开发详解案例

系统开发咨询1357O98O718

Tapdata 实时数据融合平台解决方案(一):现代企业数据架构及痛点

tapdata

mongodb

webRTC实现音视频通话与屏幕共享

侠客行

WebRTC 屏幕共享 iOS屏幕共享 web屏幕共享

智能炒币机器人系统开发案例解析,智能炒币机器人源码设计

系统开发咨询1357O98O718

《堂食点餐》APP前后端全部免费开源啦!

YonBuilder低代码开发平台

源码 大前端 APP开发 APICloud 外卖app

一文回顾 Java 入门知识(上)

逆锋起笔

Java 后端 javase

从零开始学习3D可视化之控制对象(1)

ThingJS数字孪生引擎

物联网 可视化 3D 3D可视化 数字孪生

Tapdata 实时数据融合平台解决方案(三):数据中台的技术需求

tapdata

oracle mongodb

Tapdata 实时数据融合平台解决方案(五):落地

tapdata

大数据

BZZ节点挖矿系统搭建,BZZ矿机分币系统

你真的了解 “开源” 么?请查收【保姆级】开源百科

程序员鱼皮

Java c++ Python GitHub 开源

架构实战营 - 模块 5- 作业

carl

Tapdata 实时数据融合平台解决方案(四):技术选型

tapdata

大数据

​探讨AI+新模式,百度大脑提供纺织企业数字化转型新路径

百度大脑

AI 纺织企业

我对技术潮流的一点看法

Phoenix

OpenKruise v0.9.0 版本发布:新增 Pod 重启、删除防护等重磅功能

阿里巴巴云原生

容器 运维 云原生 k8s

持续测试 | 让测试更自由:在 CODING 中实践自动化执行用例

CODING DevOps

DevOps 自动化测试 持续测试

源码解读-别再说你不知道HashMap原理!面试真题解析

欢喜学安卓

android 程序员 面试 移动开发

谷歌开源Cloud Dataflow Java SDK_Java_Abel Avram_InfoQ精选文章