写点什么

Flink 基础教程(二):初探 Flink

  • 2020-03-27
  • 本文字数:2060 字

    阅读完需:约 7 分钟

Flink基础教程(二):初探Flink

编者按:本文节选自图灵程序设计丛书 《Flink 基础教程》一书中的部分章节。


Flink 的主页 1 在其顶部展示了该项目的理念:“Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。”Flink 不仅能提供同时支持高吞吐和 exactly-once 语义的实时计算,还能提供批量数据处理,这让许多人感到吃惊。鱼与熊掌并非不可兼得,Flink 用同一种技术实现了两种功能。


1 http://flink.apache.org


这个顶级的 Apache 项目是怎么诞生的呢?Flink 起源于 Stratosphere 项目,Stratosphere 是在 2010~2014 年由 3 所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目。当时,这个项目已经吸引了一个较大的社区,一部分原因是它出现在了若干公共开发者研讨会上,比如在柏林举办的 Berlin Buzzwords,以及在科隆举办的 NoSQL Matters,等等。强大的社区基础是这个项目适合在 Apache 软件基金会中孵化的一个原因。


2014 年 4 月,Stratosphere 的代码被复制并捐献给了 Apache 软件基金会,参与这个孵化项目的初始成员均是 Stratosphere 系统的核心开发人员。不久之后,创始团队中的许多成员离开大学并创办了一个公司来实现 Flink 的商业化,他们为这个公司取名为 data Artisans。在孵化期间,为了避免与另一个不相关的项目重名,项目的名称也发生了改变。Flink 这个名字被挑选出来,以彰显这种流处理器的独特性:在德语中,flink 一词表示快速和灵巧。项目采用一只松鼠的彩色图案作为 logo,这不仅因为松鼠具有快速和灵巧的特点,还因为柏林的松鼠有一种迷人的红棕色。



图 1:左侧:柏林的红松鼠拥有可爱的耳朵;右侧:Flink 的松鼠 logo 拥有可爱的尾巴,尾巴的颜色与 Apache 软件基金会的 logo 颜色相呼应。这是一只 Apache 风格的松鼠!


这个项目很快完成了孵化,并在 2014 年 12 月一跃成为 Apache 软件基金会的顶级项目。作为 Apache 软件基金会的 5 个最大的大数据项目之一,Flink 在全球范围内拥有 200 多位开发人员,以及若干公司中的诸多上线场景,有些甚至是世界 500 强的公司。在作者撰写本书的时候,共有 34 个 Flink 线下聚会在世界各地举办,社区大约有 12 000 名成员,还有众多 Flink 演讲者参与到各种大数据研讨会中。2015 年 10 月,第一届 Flink Forward 研讨会在柏林举行。

批处理与流处理

Flink 是如何同时实现批处理与流处理的呢?答案是,Flink 将批处理(即处理有限的静态数据)视作一种特殊的流处理。


Flink 的核心计算构造是图 2 中的 Flink Runtime 执行引擎,它是一个分布式系统,能够接受数据流程序并在一台或多台机器上以容错方式执行。Flink Runtime 执行引擎可以作为 YARN(Yet Another Resource Negotiator)的应用程序在集群上运行,也可以在 Mesos 集群上运行,还可以在单机上运行(这对于调试 Flink 应用程序来说非常有用)。



图 2:Flink 技术栈的核心组成部分。值得一提的是,Flink 分别提供了面向流处理的接口(DataStream API)和面向批处理的接口(DataSet API)。因此,Flink 既可以完成流处理,也可以完成批处理。Flink 支持的拓展库涉及机器学习(FlinkML)、复杂事件处理(CEP),以及图计算(Gelly),还有分别针对流处理和批处理的 Table API


能被 Flink Runtime 执行引擎接受的程序很强大,但是这样的程序有着冗长的代码,编写起来也很费力。基于这个原因,Flink 提供了封装在 Runtime 执行引擎之上的 API,以帮助用户更方便地生成流式计算程序。Flink 提供了用于流处理的 DataStream API 和用于批处理的 DataSet API。值得注意的是,尽管 Flink Runtime 执行引擎是基于流处理的,但是 DataSet API 先于 DataStream API 被开发出来,这是因为工业界对无限流处理的需求在 Flink 诞生之初并不大。


DataStream API 可以流畅地分析无限数据流,并且可以用 Java 或者 Scala 来实现。开发人员需要基于一个叫 DataStream 的数据结构来开发,这个数据结构用于表示永不停止的分布式数据流。


Flink 的分布式特点体现在它能够在成百上千台机器上运行,它将大型的计算任务分成许多小的部分,每个机器执行一个部分。Flink 能够自动地确保在发生机器故障或者其他错误时计算能持续进行,或者在修复 bug 或进行版本升级后有计划地再执行一次。这种能力使得开发人员不需要担心失败。Flink 本质上使用容错性数据流,这使得开发人员可以分析持续生成且永远不结束的数据(即流处理)。


Flink 解决了许多问题,比如保证了 exactly-once 语义和基于事件时间的数据窗口。开发人员不再需要在应用层解决相关问题,这大大地降低了出现 bug 的概率。


因为不用再在编写应用程序代码时考虑如何解决问题,所以工程师的时间得以充分利用,整个团队也因此受益。好处并不局限于缩短开发时间,随着灵活性的增加,团队整体的开发质量得到了提高,运维工作也变得更容易、更高效。Flink 让应用程序在生产环境中获得良好的性能。尽管相对较新,但是 Flink 已经在生产环境中得到了应用,下一节将做更详细的介绍。


图书简介https://www.ituring.com.cn/book/2036



相关阅读


Flink基础教程(一):流处理技术的演变


2020-03-27 10:002549

评论

发布
暂无评论
发现更多内容

你的决定我做主——锚定效应

Justin

心理学 28天写作 游戏设计

中国石油数字化转型提速 HashData助力梦想云建设

酷克数据HashData

问题剖析之消息队列的架构设计

Kylin

读书笔记 消息队列架构 3月日更

硬核干货丨借助多容器Pod,轻松扩展K8S中的应用

Rancher

LeetCode题解:64. 最小路径和,动态规划,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

使用 Flink 前需要知道的 10 个『陷阱』

Apache Flink

flink

对象存储与HashData多云战略

酷克数据HashData

醒一醒,讲到 ZooKeeper 的选举机制了

HelloGitHub

Java zookeeper ZooKeeper原理

马特量化交易机器人系统开发网格策略

薇電13242772558

深入分析mysql为什么不推荐使用uuid或者雪花id作为主键

xcbeyond

MySQL MySQL优化 3月日更

如何通过XMind 实践OKR 工作法

博文视点Broadview

第二届开发者社区【金码奖】,揭晓了!

京东科技开发者

开发者 开发者社区

Midway Serverless 发布 2.0,一体化让前端研发再次提效

Serverless Devs

Serverless 云原生 大前端

Python 中级知识之装饰器,滚雪球学 Python

梦想橡皮擦

28天写作 3月日更

(28DW-S8-Day19) 以太坊是什么

mtfelix

28天写作

正则表达式.06 - 断言

insight

正则表达式 3月日更

Redis工具收费后新的开源已出现

happlyfox

学习 工具软件 28天写作 3月日更

Everything is Serverless,从开源框架对比说起

华为云开发者联盟

云计算 开源 Serverless 云原生 无服务器

makefile:带你了解一种常用于GNU gcc编译的工具语言

华为云开发者联盟

编译器 LiteOS makefile 语言 GNU

法大大完成D轮9亿元融资,腾讯领投

人称T客

数据分析利器之Excel功能篇

小飞象@木木自由

“七大属性加持,三个全新升级组件”这个高性能利器有点厉害

华为云开发者联盟

数据库 数据湖 Clickhouse 华为云 集群

历史技术栈体系即将崩溃,我们如何应对?

VoltDB

数据库 5G 边缘计算 VoltDB

《她说》——我们自出版的第一本书

张凯峰

Python yaml 使用的包

HoneyMoose

有源晶振和无源晶振的区别

不脱发的程序猿

28天写作 电路设计 3月日更 晶振 元器件

夺命剪刀脚(死锁)

鲁米

方法论 死锁

PostgreSQL高校数据库课程改革系列活动

PostgreSQLChina

数据库 postgresql 开源 软件 开源社区

有道 Kubernetes 容器API监控系统设计和实践

有道技术团队

Kubernetes 容器 分布式

Superset 兼容ADB(AnalyticDB-MySQL)

data_y

Python MySQL Apache Superset

火爆!GitHub 标星 144k 的前后端学习路线

沉默王二

学习 后端

Flink基础教程(二):初探Flink_语言 & 开发_科斯塔斯•宙马斯_InfoQ精选文章