NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

官宣:Apache Flink 1.14.0 发布

  • 2021-09-30
  • 本文字数:1661 字

    阅读完需:约 5 分钟

官宣:Apache Flink 1.14.0 发布

Apache 软件基金会最近发布年度报告,Apache Flink 再次跻身最活跃项目前 5 名。目前,Apache Flink 发布 Apache Flink 1.14.0,这一版本中 Flink 一个主要变化是集成的流媒体和批处理体验,此外,在 SQL API、更多连接器支持、检查点和 PyFlink 等方面也带来了许多新功能和改进。

 

统一的批处理和流处理体验

 

  • 检查点和有界流

 

通过 FLIP-147,Flink 现在支持任务完成后的检查点,并在有界流的末尾获取最终检查点,确保在作业结束之前提交所有接收器数据(类似于 stop-with-savepoint 的行为)。要激活此功能,请将 execution.checkpointing.checkpoints-after-tasks-finish.enabled: true 添加到配置中。

 

  • 混合数据流和表/SQL 应用程序的批处理执行

 

在 Flink 1.14 中,有界批处理执行的 SQL/Table 程序可以将中间 Table 转换为 DataStream,应用一些 DataSteam API 操作,并将其转换回 Table。此外,Flink 构建了一个数据流 DAG,将声明式优化的 SQL 执行与批处理执行的 DataStream 逻辑混合在一起。

 

  • 混合源

 

现在支持来自多个源的组合流,通过一个接一个地读取这些源,实现从一个源无缝切换到另一个源。比如从分层存储设置中读取流,就好像有一个跨所有层的流。混合源可以将其作为一个连续的逻辑流读取,从 S3 上的历史数据开始,过渡到 Kafka 中更新的数据。



  • 整合源和汇

 

本次对齐了 DataStream 和 SQL/Table API 之间的连接器,首先是用于 DataStream API 的 Kafka 和 文件源和接收器。

 

操作改进

 

  • 缓冲区的去浮动化

 

Buffer Debloating 是 Fl​​ink 中的一项新技术,可以最大限度地减少检查点延迟和成本。它通过自动调整网络内存的使用来确保高吞吐量,同时最大限度地减少传输中的数据量。因此,Flink 现在可以为背压下的对齐检查点提供稳定且可预测的对齐时间,并且可以大大减少背压下未对齐检查点中存储的动态数据量。



  • 细粒度资源管理

 

细粒度资源管理是一项高级新功能,可提高大型共享集群的资源利用率。通过细粒度的资源管理,TaskManager 插槽现在可以动态调整大小。转换和操作符可以指定资源配置文件(CPU 大小、内存池、磁盘空间),并由 Flink 的资源管理器和任务管理器将任务管理器总资源的特定部分切掉。



连接器

 

  • 连接器指标

 

此版本中已对连接器的度量标准进行了标准化。社区将逐渐通过所有连接器提取指标然后在下一个版本中将它们重新设计到新的统一 API 上。

 

  • 脉冲式连接器

 

在这个版本中,Flink 添加了 Apache Pulsar 连接器。Pulsar 连接器从 Pulsar 主题读取数据,并支持流和批处理两种执行模式。在事务功能的支持下(在 Pulsar 2.8.0 中引入),Pulsar 连接器提供了一次性传递语义,以确保消息只传递给消费者一次,即使生产者重试发送消息。该连接器当前支持 DataStream API,表 API/SQL 绑定预计将在未来版本中提供​​​​​​​。​​​​​​​

 

PyFlink

 

  • 通过链接提高性能

 

PyFlink 现在链接了 Python 函数。在 PyFlink 的情况下,链接不仅消除了序列化开销,还减少了 Java 和 Python 进程之间的 RPC 往返。

 

  • 用于调试的环回模式

 

PyFlink 1.14 引入了环回模式,默认情况下为本地部署激活。在这种模式下,用户自定义的 Python 函数将在客户端的 Python 进程中执行,该进程是启动 PyFlink 程序的入口点进程,包含构建数据流 DAG 的 DataStream API 和 Table API 代码。

 

  • 其他改进

 

PyFlink 还有许多其他改进,例如支持在 YARN 应用程序模式下执行作业以及支持将压缩的 tgz 文件作为 Python 存档。

 

关于 Apache Flink

 

Apache Flink 是 Apache 软件基金会内的 Apache Flink 社区基于 Apache 许可证 2.0 开发的开源流处理框架,该项目已有超过 100 位代码提交者和超过 460 贡献者。

 

它的核心是用 Java 和 Scala 编写的分布式流数据流引擎。Flink 以数据并行和流水线方式执行任意流数据程序,Flink 的流水线运行时系统可以执行批处理和流处理程序。此外,Flink 的运行时本身也支持迭代算法的执行。

 

更多详细内容,点击1.14.0 发布公告

GitHub 地址:https://github.com/apache/flink

 

参考链接:https://flink.apache.org/news/2021/09/29/release-1.14.0.html

2021-09-30 18:059155

评论

发布
暂无评论
发现更多内容

Dubbo Stub与Mock

青年IT男

dubbo

网络攻防学习笔记 Day17

穿过生命散发芬芳

5月日更 网络攻防

全链路压测二十问干货汇总(上)

TakinTalks稳定性社区

模块4作业-Redis方案

高亮

架构训练营

做个开发喜欢的产品

MavenTalker

产品经理 产品设计 系统开发

JavaScript实现:如何写出漂亮的条件表达式

华为云开发者联盟

代码 JavaScrip 条件表达式 多条件语句 多属性对象

ElasticSearch架构剖析

五分钟学大数据

大数据 elasticsearch 5月日更

针对 Restful 协议下的接口测试平台设计

GrowingIO技术专栏

RESTful

云小课 | 一个三分钟快速定制OCR应用的神器,要不?

华为云开发者联盟

AI modelarts OCR ModelArts Pro 开发套件

重磅成果 | 《数据安全治理白皮书3.0》正式对外发布!

DT极客

上手 WebRTC DTLS 遇到很多 BUG?浅谈 DTLS Fragment

阿里云视频云

阿里云 音视频 WebRTC SRS流媒体服务器 视频云

《Spring 手撸专栏》| 开篇介绍,我要带新人撸 Spring 啦!

小傅哥

spring 后端 小傅哥 面经 手撸Spring

变电站运维推陈出新?无人值守却更胜一筹

一只数据鲸鱼

数据可视化 3D可视化 智慧电网 变电站

如何让研发新同学快速 Onboarding

GrowingIO技术专栏

研发管理

长夜漫漫,聊聊synchronized锁的打怪升级路

码农参上

synchronized 签约计划第二季

玩转直播系列之RTMP协议和源码解析(2)

vivo互联网技术

RTMP 直播技术

2021 iOS 进阶学习视频推荐

程序员 ios开发

Rust从0到1-集合-字符串

rust string 集合 字符串 Collections

对比解读《2020年CNCF中国云原生调查报告》

阿里巴巴中间件

Python--TKinter

若尘

Python编程 5月日更

人工智能基础1 - DAY8

Qien Z.

人工智能 5月日更

浅入浅出 MySQL 索引

leonsh

MySQL 索引

SpringCloud微服务架构实战:Feign+Hystrix实现RPC调用保护

小Q

Java 学习 面试 微服务 spring cloud alibaba

☕️【Java技术之旅】带你看透Lambda表达式的本质

洛神灬殇

Java Lambda java8 Lambda函数 5月日更

五行合一,微服务运行态建设的“内功心法”

BoCloud博云

微服务

「打碎质疑」,阿里云未来何止600亿?

ToB行业头条

云计算 阿里云 盈利模式

由一张精益MVP图所浮想联翩

Man

敏捷开发 研发管理

15年云原生实践,在关键节点我们做对了什么? | 云原生大咖说

阿里巴巴中间件

极光开发者周刊【No.0514】

极光JIGUANG

开发者

看见技术的价值 | 音视频技术有奖征文来啦~

InfoQ写作社区官方

音视频 声网 热门活动

开发者测试:你必须知道7件事

华为云开发者联盟

软件工程 测试 工程师 代码 开发者测试

官宣:Apache Flink 1.14.0 发布_语言 & 开发_闫园园_InfoQ精选文章