阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

Flink SQL 原理及使用入门

  • 2020-03-29
  • 本文字数:2470 字

    阅读完需:约 8 分钟

Flink SQL 原理及使用入门

大数据以离线计算居多,大数据越实时越有价值。数据价值最大化的有效方式就是通过实时流计算技术(Flink/Spark 等)快速把计算结果反馈给用户,提高转化率,保证线下产品的正常运行。而 SQL 是通用语言,容易上手,下面就介绍下 Flink SQL 基本能力。

1. Get Started

Flink SQL 是 Flink 高层 API,语法遵循 ANSI SQL 标准。示例如下


SELECT car_id, MAX(speed), COUNT(speed)FROM drive_dataWHERE speed > 90GROUP BY TUMBLE (proctime, INTERVAL '30' SECOND), car_id
复制代码


Flink SQL 是在 Flink Table API 的基础上发展起来的,与上述示例对应的 Table API 示例如下


table.where('speed > 90)  .window(Tumble over 30.second on 'proctime as 'w)  .groupBy('w, 'car_id)  .select('car_id, 'speed.max, 'speed.count)
复制代码


上述示例使用 Scala 代码,结合隐式转换和中缀表示等 Scala 语法,Table API 代码看起来非常接近 SQL 表达。

2. 架构原理

老版本的 Table API 通过类似链式调用的写法,构造一棵 Table Operator 树,并对各个树节点做代码生成,转化成 Flink 低层 API 调用代码,即 DataStream/DataSet API。


从 2016 年开始,开源社区已经有大量 SQL-on-Hadoop 的成熟解决方案,包括 Apache Hive、Apache Impala、Apache Drill 等等,都依赖 Apache Calcite 提供的 SQL 解析优化能力,Apache Calcite 当时已经是一个非常流行的业界标准 SQL 解析和优化框架。于此同时,随着在实时分析领域中 Flink 的应用场景增加,对 SQL API 的呼声渐高,于是社区开始在 Apache Calcite 的基础上构建新版本的 Table API,并增加 SQL API 支持。



新版本的 Table & SQL API 在原有的 Table API 基础上,由 Calcite 提供 SQL 解析和优化能力,将 Table API 调用和 SQL 查询统一转换成 Calcite 逻辑执行计划(Calcite RelNode 树),并对此进行优化和代码生成,最终同样转化成 Flink DataStream/DataSet API 调用代码。

3. DDL & DML

完整的 SQL 语法由 DDL(data definition language)和 DML(data manipulation language)两部分组成。Flink SQL 目前只支持 DML 语法,而包含数据流定义的 DDL 语法仍需通过代码实现。


国内各大公有云厂商中,华为云和阿里云都提供了基于 Flink SQL 的实时流计算服务,各自定义了一套 DDL 语法,语法大同小异。以华为云为例,数据流定义以CREATE STREAM为关键字,具体的 DDL 写法示例如下


CREATE SOURCE STREAM driver_behavior (car_id STRING, speed INT, collect_time LONG)WITH (  type = "kafka",  kafka_bootstrap_servers = "10.10.10.10:3456,10.10.10.20:3456",  kafka_group_id = "group1",  kafka_topic = "topic1",  encode = "csv",  field_delimiter = ",") TIMESTAMP BY collect_time.ROWTIME;
CREATE SINK STREAM over_speed_warning (message STRING)WITH ( type = "smn", region = "cn-north-1", topic_urn = "urn:smn:cn-north-1:38834633fd6f4bae813031b5985dbdea:warning", message_subject = "title", message_column = "message");
复制代码


DDL 中包含输入数据流和输出数据流定义,描述实时流计算的数据上下游生态组件,在上述例子中,输入流(SOURCE STREAM)类型是 Kafka,WITH子句描述了 Kafka 消费者相关配置。输出流(SINK STREAM)类型是 SMN,是华为云消息通知服务的缩写,用于短信和邮件通知。


数据从 Kafka 流入,向 SMN 服务流出,而中间的数据处理逻辑由 DML 实现,具体的 DML 写法示例如下


INSERT INTO over_speed_warningSELECT "your car speed (" || CAST(speed as CHAR(20)) || ") exceeds the maximum speed."FROM (  SELECT car_id, MAX(speed) AS speed, COUNT(speed) AS overspeed_count  FROM driver_behavior  WHERE speed > 90  GROUP BY TUMBLE (collect_time, INTERVAL '30' SECOND), car_id)WHERE overspeed_count >= 3;
复制代码


以上 DML 语句,描述了在 30 秒内车辆累计超速三次时,向作为输出流的下游 SMN 组件输出告警消息。DML 语句中INSERT INTO关键字后紧接着输出流名,而FROM关键字后紧接着输入流名,SELECT 子句表达输出的内容,WHERE子句表达输出需要满足的过滤条件。上述例子使用到了 SQL 子查询,外层FROM后跟着一整个SELECT子句,为了方便理解,我们也可以把子查询语法转化成等价的临时流定义表达,在华为云实时流计算服务的 DDL 语法中支持了这种特性,与上述 DML 写法等价的示例如下


CREATE TEMP STREAM over_speed_info (car_id STRING, speed INT, overspeed_count INT);
INSERT INTO over_speed_infoSELECT car_id, MAX(speed) AS speed, COUNT(speed) AS overspeed_countFROM driver_behaviorWHERE speed > 90GROUP BY TUMBLE (collect_time, INTERVAL '30' SECOND), car_id;
INSERT INTO over_speed_warningSELECT "your car speed (" || CAST(speed as CHAR(20)) || ") exceeds the maximum speed."FROM over_speed_infoWHERE overspeed_count >= 3;
复制代码


通过TEMP STREAM 语法定义临时流,可以将带有子查询的 SQL 语法平铺表达,串接数据流逻辑,更容易理解。

4. 语法

Flink SQL 的核心部分是 DML 语法,基础的 DML 语法包含笛卡尔积(单表情况下只有 Scan 操作)、选择(Filter)和投影(Projection)三个数据操作部分,三者分别对应FROM子句、WHERE 子句和SELECT子句,这三个部分的顺序代表了 DML 语句的逻辑执行顺序。较为进阶的语法包含聚合、窗口和连接(JOIN)等常用语法,以及排序、限制和集合等非常用语法。下表简单列举 Flink SQL 基础和常用的进阶 DML 语法句式并加以说明,其他语法元素和内建函数等详细内容,可参考Flink SQL文档


  • 基础语法

  • 聚合语法



  • 连接语法


5. 场景

目前 Flink SQL 的应用广泛,可以用在 IoT、车联网、智慧城市、日志分析、ETL、实时大屏、实时告警、实时推荐等等。在 IoT 和车联网等行业对 Flink 有更高的要求,如时间地理函数、CEP SQL、StreamingML 等,各个云厂商都有不同程度的实现,华为云实时流计算在这方面特性最为丰富。


本文转载自 华为云产品与解决方案 公众号。


原文链接:https://mp.weixin.qq.com/s/au-X4obr31ivTuZpuVdlMA


2020-03-29 19:513427

评论

发布
暂无评论
发现更多内容

哪些应用场景在使用语音连麦

anyRTC开发者

音视频 WebRTC RTC 语音社交

隧道建设手段结合科技能有多强大?盾构机可视化让工程化繁为简

一只数据鲸鱼

物联网 数据可视化 3D可视化 盾构机 隧道工程

跨云迁移过程中的数据同步及一致性校验实践(二)

UCloud技术

迁移 数据传输 数据库迁移 数据迁移

腾讯音乐-全民K歌iOS面经

iOSer

ios 面试 腾讯大厂 金三银四跳槽

话说 synchronized

木子的昼夜

Java

谷歌开发安卓系统!Android面试你必须要知道的那些知识,全网疯传

欢喜学安卓

android 程序员 面试 移动开发

华为AR&VR黑科技:以“自由视角”360度尽展舞台唯美

华为云开发者联盟

华为 算法 视频 AR&VR 全息显示

重磅丨国资委下发通知,加快推进国有企业数字化转型

PingCode

团队管理 项目管理 研发管理 研发效能 研发工具

直流电源防反接电路设计

不脱发的程序猿

嵌入式 28天写作 硬件设计 直流电源 防反接电路设计

重磅!京东云自研第四代云主机发布;曝国外物理学家开发出用于量子计算机的汇编语言

京东科技开发者

微软 开发者 量子计算机 谷歌

连续两次入围Gartner魔力象限的Quick BI到底有何魔力?

【黑科技】爬虫也可以一键获取 [加载更多] 数据,无编码学爬虫之三。

梦想橡皮擦

Python 28天写作 3月日更

谷歌android!通宵都要看完这个Android关键技术点,威力加强版

欢喜学安卓

android 程序员 面试 移动开发

互联网公司的「敏捷开发」流程是怎么样的?典型的敏捷团队是什么样?

PingCode

敏捷 敏捷开发 研发管理 研发效能 研发工具

总结:近几年有哪些不错的scrum工具

PingCode

Scrum 敏捷 敏捷开发 研发管理 研发工具

产品训练营-第五周作业

羽室

ETL工具—Taskctl 如何搭建配置作业类型的管理

TASKCTL

大数据 kettle 运维自动化 海豚调度 ETL

力扣(LeetCode)刷题,简单+中等题(第30期)

不脱发的程序猿

面试 程序人生 算法 LeetCode 28天写作

最新整理:Google/网易/腾讯/百度/华为面经(25个专题 1W字答案解析)

比伯

Java 编程 程序员 架构 面试

Spring中的事务使用注意事项

少平

spring

公安合成作战系统!智慧警务情指行一体化建设解决方案

源中瑞-龙先生

公安合成作战系统开发 产品解决方案 情指行一体化 公安

作为产品经理,如何分析和管理你的产品需求?

PingCode

敏捷开发 研发管理 需求管理 需求 研发工具

力扣 (LeetCode)-两数之和,有效的括号,两数相加

我是哪吒

面试 算法 LeetCode 28天写作

微服务框架相关技术整理

架构 微服务

PingCode新成员Goals开放内测!

PingCode

项目管理 敏捷 敏捷开发 研发管理 研发效能

【LeetCode】二维区域和检索 - 矩阵不可变Java题解

Albert

算法 LeetCode 28天写作

LeetCode题解:188. 买卖股票的最佳时机 IV,动态规划,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

在敏捷项目管理情境下,如何做多项目管理?

PingCode

敏捷 敏捷开发 研发管理 研发效能 研发工具

入选SIGMOD2021的时间序列多周期检测通用框架RobustPeriod如何支撑阿里业务场景?

阿里云大数据AI技术

人工智能 数据库 大数据

开工第一周,有哪些助你弯道超车的好书?

博文视点Broadview

跨云迁移过程中的数据同步及一致性校验实践(一)

UCloud技术

迁移 数据传输 数据库迁移 数据迁移

Flink SQL 原理及使用入门_语言 & 开发_华为云产品与解决方案_InfoQ精选文章