GTLC全球技术领导力峰会·上海站,首批讲师正式上线! 了解详情
写点什么

Apache Flink 实现的数据流体系结构

2016 年 6 月 12 日

data Artisans 应用程序工程总监 Jamie Grier 最近在 OSCON 2016 Conference 大会发言谈到了使用 Apache Flink 构建的一种数据流体系结构。同时还谈到了数据流应用程序的构建块。

数据流体系结构可用于处理随着时间流逝以事件流方式持续生成的数据,这一点不同于传统的静态数据集。相对于传统的集中式“状态化”数据库和数据仓库,数据流应用程序可以处理事件流以及针对历史事件汇总而来的应用程序本地状态。流式数据处理的一些优势包括:

  • 降低从信号到决策的过程延迟
  • 通过统一的方式处理实时和历史数据
  • Time travel 查询

Apache Flink 是一种开源的分布式流化和批量化数据处理平台。Flink 的诞生受到了 Google Data Flow 模型的启发,可支持 Java 和 Scala 语言开发的 Stream Processing API。相比其他流式数据处理框架,Flink 中不存在微批量(Micro batching)数据,而是使用了一种“一次一条消息”的流处理技术。

Jamie 介绍了状态流处理并展示了 Flink 应用程序的代码范例,以及使用开源时序数据库和 Graphana 可视化工具 Influxdb 进行监控的方法。

同时他还介绍了流处理过程中窗口(Windowing)的概念以及处理时间(Processing Time)和事件时间(Event Time)的窗口概念。处理时间的窗口会对流数据的分析产生影响,并会导致数据处理过程中出现某些错误。在事件时间方法中,窗口来自于数据,而非时钟时间。对于事件时间,可通过数据嵌入的时间戳对数据进行处理,这样即可获得更精确的结果。

Jamie 还介绍了在应用程序中使用 Flink 时的错误处理和容错机制。Flink 中的 Savepoints 功能可在不丢失任何状态的情况下对程序和 Flink 集群进行更新。如果要对实时数据进行流处理,此时 Savepoints 数据快照会显得非常重要。

如果你想详细了解 Apache Flink,可访问他们的网站。此外 Flink Forward 2016 Conference 活动将于九月在柏林召开,提交提案的截止日期为2016 年6 月30 日。

查看英文原文 Data Streaming Architecture with Apache Flink

2016 年 6 月 12 日 19:002119
用户头像

发布了 283 篇内容, 共 86.2 次阅读, 收获喜欢 37 次。

关注

评论

发布
暂无评论
发现更多内容

Linux之旅 - 入⻔命令集 - 文件管理(1/2)

诚义舅

bash Linux Shell linux命令

状态图与概念模型

克比

翻译:《实用的Python编程》03_00_Overview

codists

Python

程序员成长第十六篇:代码重构

石云升

程序员成长 28天写作 2月春节不断更

2.1 Go语言从入门到精通:Go语言基础语法

xcbeyond

go golang 28天写作 基础语法 Go语言从入门到精通

边缘计算云原生开源方案选型比较

LanLiang

Kubernetes 边缘计算 kubeedge openyurt superedge

必学必会-音频和视频

魔王哪吒

html5 前端 28天写作 2月春节不断更

消灭微服务的坏味道 之 共享库

码猿外

微服务 共享库

从一次洗头发的经历,学习一家公司的成长

数列科技杨德华

28天写作

Linux入门篇 —— 一文带你彻底搞懂Linux 文件权限管理

若尘

Linux 权限 linux 文件权限控制

Linux之旅 - 自序

诚义舅

bash Linux Shell

使用 Helm 部署 Wikijs

东风微鸣

k8s openshift wiki

如何节省数据库写操作资源(6)【写缓存】

我爱娃哈哈😍

数据库 缓存 架构设计 抢购思路 写缓存

你存在我深深的脑海里——兼谈间隔效应

Justin

心理学 28天写作 游戏设计

Linux之旅 - 行程介绍

诚义舅

bash Linux Shell

【LeetCode】至少有K个重复字符的最长子串Java题解

HQ数字卡

算法 LeetCode 28天写作 2月春节不断更

Elasticsearch Doc Values 和 doc_values

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试 2月春节不断更

现在写还来得及吗?

Nydia

关于整理东西这件事「Day 8」

道伟

28天写作

第五次作业

秦挺

产品经理训练营 - 作业五

胡小湖

mysql介绍

在即

MySQL

Linux之旅 - 入⻔命令集

诚义舅

bash Linux 运维 Shell

LeetCode题解:122. 买卖股票的最佳时机 II,动态规划,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

javascript中的模块系统

程序那些事

JavaScript 程序那些事 模块系统

模型评估指标-1-基础篇-FPR/TPR/F1/ROC/AUC

一直学习一直爽

机器学习 模型评估 分类模型 一直学习一直爽

【管理笔记15】行销观念

俊毅

(28DW-S8-Day8) 区块链之瞎扯淡

mtfelix

区块链 28天写作

第五周作业-第四章作业(二)

Geek_72d5ab

周六

Tango

七日更 28天写作 二月春节不断更

【死磕JVM】五年 整整五年了 该知道JVM加载机制了!

牧小农

JVM 类加载 类加载器 类加载时机 双亲委派

DNSPod与开源应用专场

DNSPod与开源应用专场

Apache Flink实现的数据流体系结构-InfoQ