速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

谷歌开源 Cloud Dataflow Java SDK

  • 2014-12-21
  • 本文字数:768 字

    阅读完需:约 3 分钟

今年早些时候,谷歌宣布了 Cloud Dataflow ,一个批量或实时处理海量数据的服务和 SDK。现在,他们开源了 Dataflow Java SDK ,使开发人员可以看到它的实现方式,并合理使用该 SDK 开发运行在本地或其它云上的服务。

Dataflow 是一项云服务,使用了由 FlumeJava MillWheel 演变而来的技术,前者是一个用于创建数据并行管道的 Java 库,后者是一个用于构建容错流处理应用的框架,在谷歌内部有数百名开发人员在使用它们。Dataflow 是语言无关的,但谷歌提供了一个 Java SDK,使开发人员为它创建应用更简单。

管道是Dataflow 使用的一个关键概念,它由一组“读取输入数据源、转换数据、输出结果的操作”组成。数据组织在大小有限或无限的集合中,并提交给多个“转换(transformations)”,由它们执行计算,即操作输入集合、生成输出集合。“管道执行器(pipeline runner)”是管道的执行环境。该SDK 提供了三种类型的执行器:用于本地计算机的 DirectPipelineRunner ,用于谷歌云平台的 DataflowPipelineRunner ,还有同样用于谷歌云的 BlockingDataflowPipelineRunner ,但它会在执行状态中打印日志消息。

管道可以很简单,转换一个接一个地线性执行,或者也可以是一个复杂的有向图,转换路径先分支后合并。一个管道不能与另一个管道共享数据或转换。管道异步执行,而且为了优化整个处理过程的效率,数据流服务可以决定部分转换的执行顺序。

Dataflow 应用可以部署在谷歌云平台上,后者可以提供所需的所有基础设施,其中包括提供运行代码的虚拟机、数据存储或者用于数据处理的 BigQuery 机制。但开发人员也可以将这些应用部署在不同的执行环境中,既可以在本地,也可以在其它云上,只要创建了相同的服务即可。

Dataflow SDK 中包含了示例。谷歌已经创建了一个 Stack Overflow 标签来回答开发人员的问题。

查看英文原文:**** Google Open Sources Cloud Dataflow Java SDK

2014-12-21 08:213581
用户头像

发布了 1008 篇内容, 共 392.5 次阅读, 收获喜欢 344 次。

关注

评论

发布
暂无评论
发现更多内容

WiFi7-QCN9274, QCN6274 and QCN6224- What is the biggest difference?

wifi6-yiyi

qcn9274

软件测试学习笔记丨Linux命令 sort排序

测试人

软件测试

每日一题:LeetCode-498. 对角线遍历

Geek_4z9ami

Go 面试 算法 LeetCode 遍历

TDengine 签约海博思创,助力储能运维平台数据管理

TDengine

tdengine 时序数据库

Dynamic Wallpaper for Mac(精美的动态壁纸)v17.1免激活版

iMac小白

GaussDB(for MySQL)剪枝功能,让查询性能提升70倍!

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟

NFTScan | 01.22~01.28 NFT 市场热点汇总

NFT Research

NFT NFT\ NFTScan

探索拼多多API:打造个性化购物体验与互动营销工具

Noah

在 Windows 平台下安装与配置 MySQL 5.7.36

小魏写代码

百度智能云千帆AppBuilder-应用API调用说明

AI大咚咚

人工智能 百度 AI #大模型 AI原生应用

FunPlus宣布与华为游戏中心达成鸿蒙生态合作

最新动态

通过 Footprint 的钱包地址属性解密身份和意图

Footprint Analytics

区块链 加密钱包

软件测试学习笔记丨Selenium环境安装与使用

测试人

软件测试

Vue中虚拟Dom技术,你学会了吗?

伤感汤姆布利柏

2024年了,是谁还在学C++11?(没错,是我)

博文视点Broadview

一文总结现代 C++ 中的初始化

EquatorCoco

Java c++ 开发语言

【教程】iOS 手机抓包工具介绍及教程

雪奈椰子

独享资源与极速体验:韩国独立服务器带给您的优势!

一只扑棱蛾子

独立服务器

低代码怎么火起来的?

高端章鱼哥

低代码 JNPF

DBeaverUE for Mac v23.3.1旗舰激活版下载

iMac小白

如何理解低代码?将会带来哪些价值?

互联网工科生

软件开发 低代码开发 JNPF

数据访问效率百倍提升 HashData助力中国石油乘“数”而行

酷克数据HashData

软件测试学习笔记丨Linux安装下载

测试人

软件测试

目前山西长治市正规等保测评机构叫什么名字?在哪里?

行云管家

等保 等保测评 长治

程序员必备!10款实用便捷的Git可视化管理工具

不在线第一只蜗牛

git 程序员 可视化 实用工具

云堡垒机是软件堡垒机吗?是一种产品吗?

行云管家

云计算 网络安全 堡垒机

ProVideoPlayer for mac(pvp3多屏播放软件)v3.3.1激活版

iMac小白

探索图像检索:从理论到实战的应用

快乐非自愿限量之名

人工智能 机器学习 深度学习 大数据 图像

云安全中的常见云漏洞和威胁,有哪些防范措施

德迅云安全杨德俊

云安全 云监控 漏洞检测

谷歌开源Cloud Dataflow Java SDK_Java_Abel Avram_InfoQ精选文章