数据湖和SQL并不矛盾_AI&大模型_Shirish Joshi

数据量的增加推动了技术的更新和范式的变化。与此同时，SQL 仍然是主流。随着数据的增长和复杂性的增加，SQL 比以往任何时候都更适合分析和转换数据湖中的数据。本文探讨了如何将 SQL 用于数据湖和新的数据生态系统。本文要点：随着数据的增长和复杂性的增加，SQL 比以往任何时候都更适合分析和转换数据湖中的数据。

本文最初发布于 TowardsDataScience，经原作者授权由 InfoQ 中文站翻译并分享。

记得 NoSQL 吗？

NoSQL 数据库的出现带来了巨大的可伸缩性和简单性。

如果我们必须高速处理大量的数据，我们会被告知 NoSQL 是唯一的出路。供应商一直在喋喋不休地讨论 SQL 和中间件代码之间的阻抗失配问题。

现在我们发现，大多数 NoSQL 供应商在花了几年时间来贬低连接之后，都引入了 SQL 层。一些供应商还引入了 SQL 方言，使情况变得更糟。

在 NoSQL 上引入这个 SQL 层似乎是出于对新一代数据库的恐惧，比如谷歌 Spanner，以及提供 JSON、XML 作为一等数据类型的数据库供应商。

Hadoop 呢？

Hadoop 为开发人员提供了 map-reduce 接口，这带来了一些巨大的进步，但同时也带来了很多问题（见 DeWitt 和 Stonebraker 的文章MapReduce：一次大倒退）。

在 Hadoop 上使用 map-reduce 处理数据还有很多需要改进的地方。性能调优、数据倾斜处理、获得最佳吞吐量，所有这些都需要太多的裸机代码更改。

人们尝试了多种受 SQL 启发的方法：

Apache Pig：类 SQL 语法、FOREACH 代替 FROM、GENERATE 代替 SELECT；
Hive: 用于 SQL-in-Hadoop 的类 MySQL 语法、将 SQL 转换为 map-reduce；
Drill、Impala、Presto 和 Pivotal 的 HAWQ：SQL-on-Hadoop，绕过 map-reduce；
Spark SQL：SQL on Spark；
Apache Phoenix：SQL on HBase；
Hadoop 作为已有 DB 的外部表：Oracle Big Data SQL、Teradata SQL-H。

经过多年的“大数据时代”，以及一些 Hadoop 的兼并和破产，我们现在看到了这些技术的幸存者。Hadoop 技术现在更多地存在云中，而不是在本地环境中。现在，在组织中已经不经常看到完整的 Cloudera 或 HortonWorks 栈了。相反，少数几种技术蓬勃发展，现在已广泛用于云数据栈。

数据湖上的 SQL

Stonebraker 很久以前就指出，数据库的性能问题和可伸缩性与 SQL 关系不大，而更多地与数据库本身的设计有关（NoSQL的讨论与SQL无关）。

SQL 的最大优点是它提供了熟悉性和分析数据的表达能力。SQL 的健壮性以关系代数和集合理论为基础。

对于数据湖，我们可以看到以下这些技术。

Hive 元数据存储是人们喜爱的数据目录。
在 SQL 层，Presto 作为一个查询层脱颖而出，并在 Amazon Athena、Google Cloud DataProc、Qubole 中得到了广泛应用。
Spark 和 Spark SQL 的应用也很广泛。
Hadoop 文件系统（HDFS）用的不那么多了，云存储（Azure Blob、谷歌云存储、AWS S3）更受欢迎，CSV、Avro 和 Parquet 文件格式也更受欢迎了。

云数据仓库和数据湖

在原始文件系统上存储的经济性推动了数据湖的创建。SQL 被用于分析数据。

Amazon RedShift Spectrum 可以查询 S3 数据。

Snowflake DB 可以使用 VARIANT 列在数据库中存储 XML、JSON 或 ORC 数据，还可以使用外部表指向 S3 中的数据。

外部表还支持谷歌 BigQuery 和 Azure SQL 数据仓库。

SQL 和 ELT （提取加载转换）

数据处理的 ELT（提取加载转换）范式将数据转换步骤放在最后。首先从源系统提取数据并将其加载到数据库中。

旧的 ETL 方法 RBAR（逐行处理）与关系数据库执行的基于集合的处理形成了直接的对比，而基于集合的处理构成了 SQL 的基础。

在 ELT 中，我们现在从源数据库中提取数据并将其放入数据湖中。

SQL 转换在云数据仓库或使用 Presto 完成，并将转换后的数据加载到目标表。

通过 GoldenGate、AWS DMS，或者使用 Workato/Jitterbit/StitchData 等工具或 Kafka 等健壮的事件管道，一点点地向数据湖或数据仓库输送数据。将源系统和加载区域之间的转换最小化。然后使用 SQL 将这些数据转换并加载到仓库和分析层。

ELT 工具链使用 DAG（有向无环图）工具，如 Apache AirFlow 和无服务器函数，而不是旧的 ETL 工具链中类似 AutoSys 这样的调度器。

DBT 是在转换领域流行的另一个工具。像 FiveTran 和 Matillion 这样的云数据处理工具也使用 SQL 和 ELT。Domo 序列化 SQL 来创建转换管道。Looker 基于 LookML 生成 SQL。

原文链接

https://towardsdatascience.com/data-lakes-and-sql-49084512dd70

发布

暂无评论

创作场景

数据湖和 SQL 并不矛盾

记得 NoSQL 吗？

Hadoop 呢？

数据湖上的 SQL

云数据仓库和数据湖

SQL 和 ELT （提取加载转换）

评论

大整数算法

anyRTC uni-app 跨平台SDK 发布!总有一款适合你！

第11代酷睿处理器出色体验的奥秘原来是这个！

SpringCloud Alibaba微服务实战二 - 服务注册

探秘RocketMQ源码【1】——Producer视角看事务消息

2020年10月公有云性能评测：盛大云-华东蝉联冠军，腾讯云-北京无缘前三

架构师训练营第 1 期 -week9

面试官都爱问的ThreadLocal

训练营第5周学习总结

基于ELK的日志平台介绍

字节跳动的这份《算法中文手册》火了，完整版PDF开放下载！不少小伙伴靠这份指南成功掌握了算法的核心技能，成功拿到了 BATJ等大厂offer。

年轻人你不讲武德，自己偷着学习！spring Security五套「源码级」笔记哪里来的？我也要！

利用区块链数字化人民币，中国有望从追随者变为新秩序的领导者

数据库：我没有带闪，不讲武德

一文带你读懂！华为云在ACMUG技术沙龙上都透露了些啥？

SpringCloud Alibaba微服务实战一基础环境准备

DocView 现在支持自定义 Markdown 模版了！

区块链司法可信存证，版权维护应用落地

聊聊在国企当程序员的这三年，这样的生活真的是你想要的吗？

今年最火的 Golang 云原生开源项目，可能就是它了！

软件测试流程

从资源管理角度认识K8S

重点人员管控系统开发，情报研判系统搭建

linux开发各种I/O操作简析，以及select、poll、epoll机制的对比

区块链的常识之，什么是区块链股份授权证明机制DPoS？

想了解物联网应用的自动部署，看这篇就够了

新思科技：ISO/SAE 21434标准即将发布你准备好了吗？

OpenKruise：阿里巴巴双11 全链路应用的云原生部署基座

区块链能修复企业云计算吗？

阿里P8熬夜完成这两份800页Java面试核心知识原理+框架

对于CRM之于现代化企业的影响以及作用的分析

创作场景

数据湖和 SQL 并不矛盾

记得 NoSQL 吗？

Hadoop 呢？

数据湖上的 SQL

云数据仓库和数据湖

SQL 和 ELT （提取 加载 转换）

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载

SQL 和 ELT （提取加载转换）