在这篇文章里，我将分享如何通过扩展KCache（https://github.com/rayokota/kcache）来实现一个全功能的关系型数据库，我把这个数据库叫作KarelDB（https://github.com/rayokota/kareldb）。另外，我也将分享如何通过组装开源组件来实现新的数据库架构，就像Dropwizard（https://github.com/dropwizard/dropwizard）那样。Dropwizard是通过组装其他组件来实现的，比如Web服务器（Jetty）、REST API框架（Jersey）、JSON序列化框架（Jackson）和ORM框架（JDBI或Hibernate）。

Hello，KarelDB

在深入介绍组成KarelDB的组件之前，先让我们来了解一下如何快速让它运行起来。首先要把它下载（https://github.com/rayokota/kareldb/releases）下来，解压缩，修改config/kareldb.properties，把它指向Kafka服务器，然后运行下面的命令：

$ bin/kareldb-start config/kareldb.properties

在KarelDB运行的同时，可以在另一个终端输入以下命令来启动sqlline，然后用它来访问JDBC数据库。

$ bin/sqlline
sqlline version 1.8.0
 
sqlline> !connect jdbc:avatica:remote:url=http://localhost:8765 admin admin
 
sqlline> create table books (id int, name varchar, author varchar);
No rows affected (0.114 seconds)
 
sqlline> insert into books values (1, 'The Trial', 'Franz Kafka');
1 row affected (0.576 seconds)
 
sqlline> select * from books;
+----+-----------+-------------+
| ID |   NAME    |   AUTHOR    |
+----+-----------+-------------+
| 1  | The Trial | Franz Kafka |
+----+-----------+-------------+
1 row selected (0.133 seconds)

持久化：Kafka

KarelDB的核心组件是KCache。KCache是一个基于Kafka的嵌入式键值存储引擎。有很多组件将Kafka作为简单的键值存储，比如Kafka Connect和Confluent Schema Registry。但KCache更进一步，它提供了一套基于Map的API，方便用户使用。另外，KCache还支持不同的嵌入式键值存储实现，只要它们是基于Kafka的。

KarelDB的默认KCache配置是RocksDB（https://github.com/facebook/rocksdb），所以它支持海量数据集，启动速度也很快。当然，KCache也可以被配置成使用内存缓存，而不是RocksDB。

序列化和schema演化：Avro

Kafka将Apache Avro作为事实上的数据格式标准。Avro不仅提供了紧凑的二级制格式，对schema演化也提供了很好的支持。这也就是为什么Confluent Schema Registry会将Avro作为schema格式的首选。

KarelDB用Avro来定义表间关系，也用它来序列化关系数据，所以我们可以通过ALTER TABLE命令来修改KarelDB的schema。

sqlline> !connect jdbc:avatica:remote:url=http://localhost:8765 admin admin 
 
sqlline> create table customers (id int, name varchar);
No rows affected (1.311 seconds)
 
sqlline> alter table customers add address varchar not null;
Error: Error -1 (00000) : 
Error while executing SQL "alter table customers add address varchar not null": 
org.apache.avro.SchemaValidationException: Unable to read schema:
{
  "type" : "record",
  "name" : "CUSTOMERS",
  "fields" : [ {
    "name" : "ID",
    "type" : "int",
    "sql.key.index" : 0
  }, {
    "name" : "NAME",
    "type" : [ "null", "string" ],
    "default" : null
  } ]
}
using schema:
{
  "type" : "record",
  "name" : "CUSTOMERS",
  "fields" : [ {
    "name" : "ID",
    "type" : "int",
    "sql.key.index" : 0
  }, {
    "name" : "NAME",
    "type" : [ "null", "string" ],
    "default" : null
  }, {
    "name" : "ADDRESS",
    "type" : "string"
  } ]
}
 
sqlline> alter table customers add address varchar null;
No rows affected (0.024 seconds)

从上面的例子可以看到，在我们第一次尝试添加一个NOT NULL的列时，Avro拒绝了schema的变更，因为NOT NULL会导致不包含该字段的旧记录反序列化失败。但当我们使用NULL时，ALTER TABLE命令执行成功了。

在用Avro进行反序列化时，添加到schema中的字段（没有使用NOT NULL）会被赋予默认值，或者如果这个字段是可选项的，它的值就是null。Avro框架会自动处理这些。

另外，Avro定义了标准的数据排序顺序和比较函数，可以直接操作二进制数据，而不需要进行反序列化。这样KarelDB就可以高效地进行区间查找。

SQL：Calcite

Apache Calcite（https://github.com/apache/calcite）是一个SQL框架，可以用来解析、优化和执行查询语句，但不包含数据存储。Calcite使用内置的枚举调用方式来处理查询，把底层的数据存储表示成一系列元组，这样就可以使用迭代接口来访问它们。元组可以使用内置键值存储来表示，所以KarelDB支持键的查询和键区间过滤（利用Avro的排序功能），只是把查询交给了Calcite。

Calcite支持ANSI SQL，包括一些较新的函数，比如JSON_VALUE和JSON_QUERY。

sqlline> create table authors (id int, json varchar);
No rows affected (0.132 seconds)
 
sqlline> insert into authors 
       > values (1, '{"name":"Franz Kafka", "book":"The Trial"}');
1 row affected (0.086 seconds)
 
sqlline> insert into authors 
       > values (2, '{"name":"Karel Capek", "book":"R.U.R."}');
1 row affected (0.036 seconds)
 
sqlline> select json_value(json, 'lax $.name') as author from authors;
+-------------+
|   AUTHOR    |
+-------------+
| Franz Kafka |
| Karel Capek |
+-------------+
2 rows selected (0.027 seconds)

事务和MVCC：OMID

Apache Omid（https://github.com/apache/incubator-omid）最初是为HBase设计的，但它其实是一个可以为键值存储提供事务支持的通用框架。另外，Omid使用了底层的键值存储来持久化与事务有关的元数据。所以，将Omid与已有的键值存储（比如KCache）集成在一起是很容易的。

实际上，Omid需要用到键值存储的一些功能，比如多版本数据和原子CAS（Compare-And-Set）能力。KarelDB在KCache之上组合了这些能力，所以可以利用Omid来支持事务管理。Omid使用键值存储的这些能力来实现MVCC快照隔离。在其他数据库（比如Oracle和PostgreSQL）中，MVCC经常被用来实现快照隔离。

在下面的例子中，我们可以看到如何通过回滚事务让数据库回到事务开始之前的状态。

sqlline> !autocommit off
 
sqlline> select * from books;
+----+-----------+-------------+
| ID |   NAME    |   AUTHOR    |
+----+-----------+-------------+
| 1  | The Trial | Franz Kafka |
+----+-----------+-------------+
1 row selected (0.045 seconds)
 
sqlline> update books set name ='The Castle' where id = 1;
1 row affected (0.346 seconds)
 
sqlline> select * from books;
+----+------------+-------------+
| ID |    NAME    |   AUTHOR    |
+----+------------+-------------+
| 1  | The Castle | Franz Kafka |
+----+------------+-------------+
1 row selected (0.038 seconds)
 
sqlline> !rollback
Rollback complete (0.059 seconds)
 
sqlline> select * from books;
+----+-----------+-------------+
| ID |   NAME    |   AUTHOR    |
+----+-----------+-------------+
| 1  | The Trial | Franz Kafka |
+----+-----------+-------------+
1 row selected (0.032 seconds)

当然，事务可以跨多行和多张表。

JDBC：Avatica

KarelDB支持两种运行模式，可以是嵌入式的，也可以作为服务器。在作为服务器运行时，KarelDB借助Apache Avatica（https://github.com/apache/calcite-avatica）来提供RPC支持。Avatica不仅提供了一个服务器框架，还提供了一个JDBC驱动，可以通过Avatica RPC与服务器通信。

使用Kafka的一个好处是多台服务器可以消费相同的主题，所以，可以将多台KarelDB组成集群，避免单点故障。其中一台服务器被选为首领，其他的是追随者（或者叫副本）。当一个追随者服务器收到JDBC请求时，它会通过Avatica JDBC驱动程序将请求转发给首领。如果首领发生故障，一个追随者会被选举为新的首领。

用组件组装数据库

现如今的开源库已经做到了多年前基于组件的软件开发所希望做到的事情。现在可以基于开源库组装出复杂的系统，比如，通过集成一些设计良好的组件，就可以组装出一个关系型数据库，这些组件在系统中扮演了各自擅长的角色。

在上面的例子中，我分享了如何使用已有开源组件来组装KarelDB：

Apache Kafka：用于持久化，使用KCache作为嵌入式的键值存储；
Apache Avro：用于序列化和schema演化；
Apache Calcite：用于解析、优化和执行SQL；
Apache Omid：提供事务管理和MVCC支持；
Apache Avatica：用于支持JDBC。

目前的KarelDB是单节点数据库，它可以拥有副本，但不是一个分布式数据库。另外，KarelDB是一个普通的关系型数据库，不支持流式处理。如果需要分布式流式关系型数据库，可以考虑KSQL（https://www.confluent.io/product/ksql/）。

虽然KarelDB还很年轻，但如果你想要一个基于Kafka的普通关系型数据库，可以尝试一下它。

英文原文：
BUILDING A RELATIONAL DATABASE USING KAFKA

创作场景

如何基于 Kafka 构建一个关系型数据库