【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

官宣:Apache Flink 1.14.0 发布

  • 2021-09-30
  • 本文字数:1661 字

    阅读完需:约 5 分钟

官宣:Apache Flink 1.14.0 发布

Apache 软件基金会最近发布年度报告,Apache Flink 再次跻身最活跃项目前 5 名。目前,Apache Flink 发布 Apache Flink 1.14.0,这一版本中 Flink 一个主要变化是集成的流媒体和批处理体验,此外,在 SQL API、更多连接器支持、检查点和 PyFlink 等方面也带来了许多新功能和改进。

 

统一的批处理和流处理体验

 

  • 检查点和有界流

 

通过 FLIP-147,Flink 现在支持任务完成后的检查点,并在有界流的末尾获取最终检查点,确保在作业结束之前提交所有接收器数据(类似于 stop-with-savepoint 的行为)。要激活此功能,请将 execution.checkpointing.checkpoints-after-tasks-finish.enabled: true 添加到配置中。

 

  • 混合数据流和表/SQL 应用程序的批处理执行

 

在 Flink 1.14 中,有界批处理执行的 SQL/Table 程序可以将中间 Table 转换为 DataStream,应用一些 DataSteam API 操作,并将其转换回 Table。此外,Flink 构建了一个数据流 DAG,将声明式优化的 SQL 执行与批处理执行的 DataStream 逻辑混合在一起。

 

  • 混合源

 

现在支持来自多个源的组合流,通过一个接一个地读取这些源,实现从一个源无缝切换到另一个源。比如从分层存储设置中读取流,就好像有一个跨所有层的流。混合源可以将其作为一个连续的逻辑流读取,从 S3 上的历史数据开始,过渡到 Kafka 中更新的数据。



  • 整合源和汇

 

本次对齐了 DataStream 和 SQL/Table API 之间的连接器,首先是用于 DataStream API 的 Kafka 和 文件源和接收器。

 

操作改进

 

  • 缓冲区的去浮动化

 

Buffer Debloating 是 Fl​​ink 中的一项新技术,可以最大限度地减少检查点延迟和成本。它通过自动调整网络内存的使用来确保高吞吐量,同时最大限度地减少传输中的数据量。因此,Flink 现在可以为背压下的对齐检查点提供稳定且可预测的对齐时间,并且可以大大减少背压下未对齐检查点中存储的动态数据量。



  • 细粒度资源管理

 

细粒度资源管理是一项高级新功能,可提高大型共享集群的资源利用率。通过细粒度的资源管理,TaskManager 插槽现在可以动态调整大小。转换和操作符可以指定资源配置文件(CPU 大小、内存池、磁盘空间),并由 Flink 的资源管理器和任务管理器将任务管理器总资源的特定部分切掉。



连接器

 

  • 连接器指标

 

此版本中已对连接器的度量标准进行了标准化。社区将逐渐通过所有连接器提取指标然后在下一个版本中将它们重新设计到新的统一 API 上。

 

  • 脉冲式连接器

 

在这个版本中,Flink 添加了 Apache Pulsar 连接器。Pulsar 连接器从 Pulsar 主题读取数据,并支持流和批处理两种执行模式。在事务功能的支持下(在 Pulsar 2.8.0 中引入),Pulsar 连接器提供了一次性传递语义,以确保消息只传递给消费者一次,即使生产者重试发送消息。该连接器当前支持 DataStream API,表 API/SQL 绑定预计将在未来版本中提供​​​​​​​。​​​​​​​

 

PyFlink

 

  • 通过链接提高性能

 

PyFlink 现在链接了 Python 函数。在 PyFlink 的情况下,链接不仅消除了序列化开销,还减少了 Java 和 Python 进程之间的 RPC 往返。

 

  • 用于调试的环回模式

 

PyFlink 1.14 引入了环回模式,默认情况下为本地部署激活。在这种模式下,用户自定义的 Python 函数将在客户端的 Python 进程中执行,该进程是启动 PyFlink 程序的入口点进程,包含构建数据流 DAG 的 DataStream API 和 Table API 代码。

 

  • 其他改进

 

PyFlink 还有许多其他改进,例如支持在 YARN 应用程序模式下执行作业以及支持将压缩的 tgz 文件作为 Python 存档。

 

关于 Apache Flink

 

Apache Flink 是 Apache 软件基金会内的 Apache Flink 社区基于 Apache 许可证 2.0 开发的开源流处理框架,该项目已有超过 100 位代码提交者和超过 460 贡献者。

 

它的核心是用 Java 和 Scala 编写的分布式流数据流引擎。Flink 以数据并行和流水线方式执行任意流数据程序,Flink 的流水线运行时系统可以执行批处理和流处理程序。此外,Flink 的运行时本身也支持迭代算法的执行。

 

更多详细内容,点击1.14.0 发布公告

GitHub 地址:https://github.com/apache/flink

 

参考链接:https://flink.apache.org/news/2021/09/29/release-1.14.0.html

2021-09-30 18:059112

评论

发布
暂无评论
发现更多内容

来!看排名一年上升16位的ClickHouse,如何在京东落地实践

京东科技开发者

数据库 Clickhouse

Spring 配置加载

樊江。

Spring Framework

TCP协议认知篇

邱学喆

TCP协议 拥塞避免算法 慢启动算法 坚持定时器 TCP状图切换

ipfs挖矿合法吗?ipfs挖矿靠谱吗?

区块链 IPFS ipfs挖矿 ipfs矿机 filecoin挖矿

阿里资深架构师终于把微服务架构与实践第2版PDF分享出来了

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

关于飞书的告警通知,这里有个更好的办法

睿象云

运维 告警 运维平台 智能告警

WorkPlus高端制造业移动数字化平台解决方案—华晨宝马

WorkPlus

即时通讯 移动办公平台 移动数字化底座 移动数字化基座 企业即时通讯平台

区块链应用:从技术工具到创新思维

CECBC

如何对接口参数的描述进行集中管理

CodeNongXiaoW

大前端 测试 后端 接口工具

打开vscode好像打开了原神?vscode原神背景推荐,比博燃

CodeNongXiaoW

vscode vscode背景 原神

阿里巴巴首发:Java核心框架指导手册1小时点击量破千万!

Java 编程 面试 程序人生 Alibaba

如何基于分布式KV研发一款消息中间件

Java 编程 面试 后端 中间件

能不能征服初恋,就看这个架构了!!!

人工智能~~~

微信业务架构 | 架构实战营

樊江。

架构实战营

高可用 | Xenon 实现 MySQL 高可用架构 部署篇

RadonDB

MySQL 数据库 Xenon RadonDB

kubelet 1.14 升级 kubelet 1.20 容器重启问题

Geek_f24c45

Docker Kubernetes kubelet

区块链产业大爆发!未来究竟是谁的机会?

CECBC

华为18级工程师三年心血终成趣谈网络协议文档(附大牛讲解)

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

计算机网络常用知识总结

Java 架构 后端 网络 计算机

模块一作业

陈家豪

架构实战营

量化交易炒币机器人系统搭建

量化系统19942438797

机器人 量化交易

吐血整理!金九银十必问的1000道Java面试题及答案

Java 编程 程序员 架构 面试

最全互联网后端免费技术分享视频资源学习社区

hanaper

区块链“通证”将颠覆“资本”

CECBC

交易所智能炒币机器人开发||量化交易炒币机器人系统搭建

Geek_23f0c3

量化交易机器人系统开发 炒币机器人

技术分析| 实时音视频通讯中的流媒体是怎样传输的

anyRTC开发者

音视频 WebRTC 流媒体 流媒体传输

Goroutine & Channel

Vibyird

并发编程 channel CSP Go 语言 goroutine

云原生多云容器编排平台karmada上手指南

谐云

云原生 开源技术

cocoapods 的主模块如何判断子模块有没有被加载?

fuyoufang

ios swift 8月日更

图数据库在百度汉语中的应用

百度Geek说

数据库 后端

如何从内部保障企业数据安全?用IT运维审计系统可以吗?

行云管家

网络安全 数据安全 堡垒机 IT运维 运维审计

官宣:Apache Flink 1.14.0 发布_语言 & 开发_闫园园_InfoQ精选文章