Flink 基础教程 (8):为何选择 Flink 1.5.2&1.6

阅读数:11 2019 年 11 月 24 日 22:28

Flink基础教程(8):为何选择 Flink 1.5.2&1.6

(其他案例)

内容简介
近年来,流处理变得越来越流行。作为高度创新的开源流处理器,Flink 拥有诸多优势,包括容错性、高吞吐、低延迟,以及同时支持流处理和批处理的能力。本书分为 6 章,侧重于介绍 Flink 的核心设计理念、功能和用途,内容涉及事件时间和处理时间、窗口和水印机制、检查点机制、性能测评,以及 Flink 如何实现批处理。
本书面向有兴趣学习如何分析大规模流数据的读者。

King 公司

King 公司的游戏非常流行,全世界几乎每时每刻都有人在玩它的在线游戏。作为在线娱乐行业的佼佼者,该公司称自己已经开发了 200 多款游戏,市场覆盖 200 多个国家和地区。

King 公司的工程师曾在一篇博客文章中写道:“我们每月有超过 3 亿的独立用户,每天从不同的游戏和系统中收到 300 亿次事件,基于这么大的数据量做任何流分析都是真正的技术挑战。因此,为我们的数据分析师开发工具来处理如此大规模的流数据,同时保证数据在应用中具有最大的灵活性,这些对于公司而言至关重要。”

King 公司用 Flink 构建的系统让其数据分析师得以实时地获取大量的流数据。Flink 的成熟度给他们留下了深刻的印象。即使面对像 King 公司这样复杂的应用环境,Flink 也能很好地提供支持。

Zalando 公司

作为欧洲领先的在线时尚平台,Zalando 公司在全球拥有超过 1600 万的客户。该公司的网站将其组织结构描述为“多个敏捷、自主的小型团队”(换句话说,该公司采用了微服务架构)。

流处理架构为微服务提供了良好的支持。因此,Flink 提供的流处理能力满足了这种工作模式的需求,特别是支持业务流程监控和持续的 ETL5 过程。

5 ETL 是 Extract、Transform 和 Load 的缩写,即抽取、转换和加载。——编者注

Otto 集团

Otto 集团是全球第二大 B2C(business to consumer,企业对顾客电子商务)在线零售商,也是欧洲时尚和生活领域最大的 B2C 在线零售商。

它的商业智能部门在最初开始评估开源流处理平台时,没有找到一种能够符合其要求的平台,所以后来决定开发自己的流处理引擎。但是当试过 Flink 之后,该部门发现 Flink 满足了他们对流处理的所有需求,包括对众包用户代理的鉴定,以及对检索事件的辨识。

ResearchGate

从活跃用户的数量上看,ResearchGate 是最大的学术社交网络。它从 2014 年开始使用 Flink 作为其数据基础设施的一个主要工具,负责批处理和流处理。

阿里巴巴集团

阿里巴巴这个庞大的电子商务集团为买方和卖方提供平台。其在线推荐功能是通过基于 Flink 的系统 Blink 实现的。用户当天所购买的商品可以被用作在线推荐的依据,这是使用像 Flink 这样真正意义上的流处理引擎能够带来的好处之一。并且,这在那些用户活跃度异常高的特殊日期(节假日)尤其重要,也是高效的流处理相较于批处理的优势之一。


(Flink 的适用场景)

本章开头提出了“为何选择 Flink”这一问题。比这个问题更大的则是“为何要用流数据?”本章解释了一些原因,比如在许多情况下,我们都需要观察和分析连续事件产生的数据。与其说流数据是特别的,倒不如说它是自然的——只不过从前我们没有流处理能力,只能做一些特殊的处理才能真正地使用流数据,比如将流数据攒成批量数据再处理,不然无法进行大规模的计算。使用流数据并不新鲜,新鲜的是我们有了新技术,从而可以大规模、灵活、自然和低成本地使用它们。

Flink 并不是唯一的流处理工具。人们正在开发和改进多种新兴的技术,以满足流处理需求。显然,任何一个团队选择某一种技术都是出于多方面的考虑,包括团队成员的已有技能。但是 Flink 的若干优点、易用性,以及使用它所带来的各种好处,使它变得非常有吸引力。另外,不断壮大且非常活跃的 Flink 社区也暗示着它值得一试。你会发现“为何选择 Flink”这个问题变成了“为何不选择 Flink 呢?”

在深入探讨 Flink 的工作原理之前,我们先来通过第 2 章了解如何设计数据架构才能从流处理中充分获益,以及流处理架构是如何带来诸多好处的。

评论

发布