LinkedIn Engineering 发布 SenseiDB 1.0.0

  • Kostis Kapelonis
  • 曹如进

2012 年 3 月 21 日

话题:JavaDevOps架构AI

LinkedIn Engineering发布并开源了其分布式、半结构化数据库SenseiDB。SenseiDB 是 LinkedIn 背后搜索基础架构使用到的技术,LinkedIn 主页、LinkedIn Signal以及其他搜索功能(如人员 / 公司搜索)均使用了 SenseiDB。SenseiDB 最初是因为公司需要,由内部人员开发,而现在它以开源方式发布在Search, Network, Analytics项目之下。

SenseiDB 是一个 NoSQL 数据库,它专注于高更新率以及复杂半结构化搜索查询。熟悉 Lucene 和 Solor 的用户会发现,SenseiDB 背后有许多似曾相识的概念。SenseiDB 部署在多节点集群中,其中每个节点可以包括 N 块数据片。Apache Zookeeper用于管理节点,它能够保持现有配置,并可以将任意改动(如拓扑修改)传输到整个节点群中。SenseiDB 集群还需要一种模式用于定义将要使用的数据模型。

从 SenseiDB 集群中获取数据的唯一方法是通过Gateways(它没有“INSERT”方法)。每个集群都连接到一个单一 gateway。你需要了解很重要的一点是,由于 SenseiDB 本身没法处理原子性(Atomicity)和隔离性(Isolation),因此只能通过外部在 gateway 层进行限制。另外,gateway 必须确保数据流按照预期的方式运作。内置的 gateway 有以下几种形式:

应用程序开发人员还可以自定义 gateway。这里是一个gateway 示例,它从 Twitter 更新中获取数据。

通过借助输入数据流将数据送入集群,SenseiDB 允许使用定义好的模式进行多方位查询。为此,它还提供了一个可由任意 HTTP 客户端访问的REST API。该 API 的灵感来源于ElasticSearch's Query DSL。SenseiDb 还为 API 提供了 Java 和 Python 封装,相信 Ruby 版本很快也会出现。

最后,SenseiDB 提供了浏览查询语言(Browse Query Language,简称 BQL)作为另一种查询方式。BQL 类似 SQL(目前仅包含 SELECT 语句),它可以用一种更方便的方式查询 SenseiDB。此外,集群安装还附带了一个图形化 Web 控制台,用作对 BQL 查询进行检查和调试。

想要了解更多信息,请查阅文档JavadocsWiki。SenseiDB 的源代码托管在GitHub上。

查看英文原文:LinkedIn Engineering Releases SenseiDB 1.0.0

JavaDevOps架构AI