BlazingSQL是基于英伟达RAPIDS生态系统构建的GPU加速SQL引擎，可以为各种ETL大数据集提供SQL接口，并且完全运行在GPU之上。近日，其研发团队宣布，BlazingSQL基于Apache 2.0许可完全开源！

开源项目地址：https://github.com/blazingdb/pyBlazing/

关于BlazingSQL

BlazingSQL是一个基于英伟达RAPIDS生态系统构建的GPU加速SQL引擎。RAPIDS包含一组软件库（BlazingSQL、cuDF、cuML、cuGraph），用来在GPU上执行端到端的数据科学计算和分析管道。RAPIDS基于Apache Arrow列式存储格式，其中cuDF是一个GPU DataFrame库，用于加载、连接、聚合、过滤和操作数据。BlazingSQL是面向cuDF的SQL接口，具备支持大规模数据科学工作流和企业数据集的各种功能。

官方称，BlazingSQL（几乎）可以处理任何你想要的数据。它的前身是BlazingDB，但因为它并不是一个数据库，所以研发团队将BlazingDB改名为BlazingSQL。

BlazingSQL主要特性：

查询外部存储数据：仅需一行代码就可以注册远程存储解决方案，例如Amazon S3。
简单的SQL：非常容易使用，运行SQL查询就能得到GPU DataFrames（GDF）的查询结果。
互操作性：任意一个RAPIDS库都可以访问查询到的GDF，并用于任意的数据科学工作负载。

BlazingSQL解决的痛点

价格昂贵：进行大规模数据科学研究通常需要包含数千台服务器的集群，而BlazingSQL + RAPIDS运行相同规模的工作负载只需要其中一小部分基础设施。
速度慢：在大型数据集上运行工作负载和查询可能需要数小时或数天，而BlazingSQL + RAPIDS借助GPU加速可以在几秒内得到结果，帮助数据科学家快速迭代新模型。
复杂型：数据科学工作负载通常基于小数据集开发出原型，然后针对分布式系统进行重建。BlazingSQL + RAPIDS让用户能够只编写一次代码，并且只需要一行代码就能动态地改变分布式集群规模。

在开发团队看来，迄今为止，SQL是每一个主流分析生态系统的支柱之一，RAPIDS是下一代分析生态系统，而BlazingSQL是RAPIDS的SQL标准。

BlazingSQL完全基于cuDF和cuIO构建，这些项目的新功能会直接影响BlazingSQL的功能和性能。同时，由于BlazingSQL运行在GDF上，它与RAPIDS的所有库都是100％可互操作的。

如果你正在使用RAPIDS，或者正在考虑使用RAPIDS，BlazingSQL将为你提供更多便利，包括但不限于：

降低代码复杂性：SQL语句非常简单，你可以用单个语句替换数十到数百个cuDF函数调用。
连接到数据湖：你不再需要同步其他数据库，BlazingSQL可以查询云端或网络文件系统中的任意原始文件。
让RAPIDS变得更快：更先进的SQL优化器让RAPIDS技术栈更智能地运行。

BlazingSQL性能表现

目前，BlazingSQL+RAPIDS已经上线Google Colab，研发团队在GCP上搭建了两个价格相当的集群，一个用于Spark，另一个用于BlazingSQL。他们在集群上运行端到端的数据分析工作负载：从数据湖到ETL/特征工程，再到XGBoost训练，并对Spark和BlazingSQL的性能进行了对比测试。

研发人员在超过两千万行Netflow数据上运行两次相同的特定工作负载（具体实验参见Colab链接）。首先运行BlazingSQL + RAPIDS，然后使用PySpark（Spark 2.4.1）再次运行，得到如下结果：

如果把从Google Drive中加载CSV到各自DataFrame所需的时间考虑在内，BlazingSQL比Spark快71倍。

如果只看ETL时间，则BlazingSQL和RAPIDS的速度比Spark快100倍！

运行以下Colab演示，用户可以使用免费英伟达T4 GPU资源进行同样的测试，对BlazingSQL的实际效果进行验证。

https://colab.research.google.com/drive/1EbPE9FwFur7fE2054BH9s23Kd0FiUgGo

据介绍，BlazingSQL大部分性能提升来自团队的内部引擎项目，BlazingSQL团队的工程师们希望开发一种专为GPU DataFrames（GDF）构建的GPU执行内核，称之为“SIMD表达式解释器”（SIMD Expression Interpreter）。研发团队分享了一些关于SIMD表达式解释器的细节，SIMD表达式解释器通过几个关键步骤带来提升性能：

接收多个输入，包括GDF列、字面量，在不久的将来也会支持函数。
在加载这些输入时，SIMD表达式解释器将对GPU寄存器的分配进行优化，这可以优化GPU线程占用率，并提高性能。
然后，虚拟机处理这些输入，并生成多个输出。假设有以下SQL查询：
```
SELECT colA + colB * 10，sin（colA） - cos（colD）FROM tableA
```
在以前，BlazingSQL会将这条查询语句转换为5个操作（+，*，sin，cos， - ），每个操作都需要单独执行。在使用SIMD表达式解释器后，它会同时接收（colA、colB、colD）作为输入，并在单次内核执行中执行所有5个操作，最终生成两个输出。这意味着colA只需要加载一次，而不是两次。

目前，SIMD表达式解释器支持BlazingSQL的过滤和投影，因此它对许多主流的SQL查询都有影响。

如何使用BlazingSQL

使用BlazingSQL在Amazon S3中查询CSV文件的示例代码：

from blazingsql import BlazingContext
bc = BlazingContext()

bc.s3('dir_name', bucket_name='bucket_name', access_key_id='access_key', secrect_key='secret_key')

# Create Table from CSV
bc.create_table('taxi', '/dir_name/taxi.csv')

# Query
result = bc.sql('SELECT count(*) FROM taxi GROUP BY year(key)').get()
result_gdf = result.columns

#Print GDF 
print(result_gdf)

更多BlazingSQL的操作方法参见GitHub项目和官方网站。

创作场景

比 Spark 快 100 倍的 GPU 加速 SQL 引擎：BlazingSQL 开源了